浅谈新疆地区少数民族文字识别系统的发展进度
【摘要】数字资源为新兴时代图书馆必不可少的资源之一而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题提出了少数民族地区数字文献事业发展的进展和现状
【关键词】新疆 民族文字识别发展进度
我国是多民族国家尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术使各自的文字领域创造了数字化、 自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用P DF文件或HTM L网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件也就是为电子图书等数字文献的形成做中转的作用如图1。介绍新疆地区少数民族文字识别系统之前我们必须先了解其文字背景和特点首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征在阿拉伯文字的基础上模仿性创造出的文字表达方式是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母哈萨克文使用33个字母柯尔克孜文使用30个字母 1983年版这三种语言文字在各自中间也有些共同点和不同地方。
目前虽然有关这些语言文字识别的研究有了些新的进展其实幅度还是不能满足使用者对新技术的发展需求可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点这些语言文字的识别技术也会有自己的特点和不同之处简单总结为以下几点
介绍:819云怎么样?819云创办于2019,由一家从2017年开始从业的idc行业商家创办,主要从事云服务器,和物理机器819云—-带来了9月最新的秋季便宜vps促销活动,一共4款便宜vps,从2~32G内存,支持Windows系统,…高速建站的美国vps位于洛杉矶cera机房,服务器接入1Gbps带宽,采用魔方管理系统,适合新手玩耍!官方网站:https://www.8...
Hostodo近日发布了美国独立日优惠促销活动,主要推送了四款特价优惠便宜的VPS云服务器产品,基于KVM虚拟架构,NVMe阵列,1Gbps带宽,默认分配一个IPv4+/64 IPv6,采用solusvm管理,赠送收费版DirectAdmin授权,服务有效期内均有效,大致约为7折优惠,独立日活动时间不定,活动机型售罄为止,有需要的朋友可以尝试一下。Hostodo怎么样?Hostodo服务器好不好?...
Hostodo商家算是一个比较小众且运营比较久的服务商,而且还是率先硬盘更换成NVMe阵列的,目前有提供拉斯维加斯和迈阿密两个机房。看到商家这两年的促销套餐方案变化还是比较大的,每个月一般有这么两次的促销方案推送,可见商家也在想着提高一些客户量。毕竟即便再老的服务商,你不走出来让大家知道,迟早会落寞。目前,Hostodo有提供两款大流量的VPS主机促销,机房可选拉斯维加斯和迈阿密两个数据中心,且都...