浅谈新疆地区少数民族文字识别系统的发展进度
【摘要】数字资源为新兴时代图书馆必不可少的资源之一而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题提出了少数民族地区数字文献事业发展的进展和现状
【关键词】新疆 民族文字识别发展进度
我国是多民族国家尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术使各自的文字领域创造了数字化、 自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用P DF文件或HTM L网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件也就是为电子图书等数字文献的形成做中转的作用如图1。介绍新疆地区少数民族文字识别系统之前我们必须先了解其文字背景和特点首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征在阿拉伯文字的基础上模仿性创造出的文字表达方式是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母哈萨克文使用33个字母柯尔克孜文使用30个字母 1983年版这三种语言文字在各自中间也有些共同点和不同地方。
目前虽然有关这些语言文字识别的研究有了些新的进展其实幅度还是不能满足使用者对新技术的发展需求可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点这些语言文字的识别技术也会有自己的特点和不同之处简单总结为以下几点
digital-vm在日本东京机房当前提供1Gbps带宽、2Gbps带宽、10Gbps带宽接入的独立服务器,每个月自带10T免费流量,一个独立IPv4。支持额外购买流量:20T-$30/月、50T-$150/月、100T-$270美元/月;也支持额外购买IPv4,/29-$5/月、/28-$13/月。独立从下单开始一般24小时内可以上架。官方网站:https://digital-vm.com/de...
Advinservers,国外商家,公司位于新泽西州,似乎刚刚新成立不久,主要提供美国和欧洲地区VPS和独立服务器业务等。现在有几款产品优惠,高达7.5TB的存储VPS和高达3.5TBDDoS保护的美国纽约高防服务器,性价比非常不错,有兴趣的可以关注一下,并且支持Paypal付款。官方网站点击直达官方网站促销产品第一款VPS为预购,预计8月1日交付。CPU为英特尔至强 CPU(X 或 E5)。官方...
小白云是一家国人自营的企业IDC,主营国内外VPS,致力于让每一个用户都能轻松、快速、经济地享受高端的服务,成立于2019年,拥有国内大带宽高防御的特点,专注于DDoS/CC等攻击的防护;海外线路精选纯CN2线路,以确保用户体验的首选线路,商家线上多名客服一对一解决处理用户的问题,提供7*24无人全自动化服务。商家承诺绝不超开,以用户体验为中心为用提供服务,一直坚持主打以产品质量用户体验性以及高效...