浅谈新疆地区少数民族文字识别系统的发展进度
【摘要】数字资源为新兴时代图书馆必不可少的资源之一而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题提出了少数民族地区数字文献事业发展的进展和现状
【关键词】新疆 民族文字识别发展进度
我国是多民族国家尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术使各自的文字领域创造了数字化、 自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用P DF文件或HTM L网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件也就是为电子图书等数字文献的形成做中转的作用如图1。介绍新疆地区少数民族文字识别系统之前我们必须先了解其文字背景和特点首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征在阿拉伯文字的基础上模仿性创造出的文字表达方式是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母哈萨克文使用33个字母柯尔克孜文使用30个字母 1983年版这三种语言文字在各自中间也有些共同点和不同地方。
目前虽然有关这些语言文字识别的研究有了些新的进展其实幅度还是不能满足使用者对新技术的发展需求可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点这些语言文字的识别技术也会有自己的特点和不同之处简单总结为以下几点
极光KVM怎么样?极光KVM本月主打产品:美西CN2双向,1H1G100M,189/年!在美西CN2资源“一兆难求”的大环境下,CN2+大带宽 是很多用户的福音,也是商家实力的象征。目前,极光KVM在7月份的促销,7月促销,美国CN2 GIA大带宽vps,洛杉矶联通cuvip,14元/月起;香港CN2+BGP仅19元/月起,这次补货,机会,不要错过了。点击进入:极光KVM官方网站地址极光KVM七月...
DogYun(中文名称狗云)新上了一批韩国自动化上架独立服务器,使用月减200元优惠码后仅需每月300元,双E5 CPU,SSD+NVMe高性能硬盘,支持安装Linux或者Windows操作系统,下单自动化上架。这是一家成立于2019年的国人主机商,提供VPS和独立服务器租用等产品,数据中心包括中国香港、美国洛杉矶、日本、韩国、德国、荷兰等。下面分享这款自动化上架韩国独立服务器的配置和优惠码信息。...
优惠码年付一次性5折优惠码:TYO-Lite-Open-Beta-1y-50OFF永久8折优惠码:TYO-Lite-Open-Beta-Recur-20OFF日本vpsCPU内存SSD流量带宽价格购买1核1.5G20 GB4 TB1Gbps$10.9/月购买2核2 G40 GB6 TB1Gbps$16.9/月购买2核4 G60 GB8 TB1Gbps$21.9/月购买4核4 G80 GB12 TB...