汉字unicode编码转换

unicode编码转换  时间:2021-05-05  阅读:()

第六章中文信息处理概述一、中文信息处理《计算机科学技术百科全书》(清华大学出版社,1998)中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术.
中文信息处理分为汉字信息处理与汉语信息处理两部分中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科.

参考文献《中文信息处理技术——原理与应用》,李宝安等,清华大学出版社,2005年7月第1版《中文信息处理技术教程》,朱巧明,清华大学出版社,2005年版《计算语言学概论》,俞士汶主编,商务印书馆,2003年9月第1版《计算语言学》,刘颖,清华大学出版社,2002年版中国语言文字网http://www.
china-language.
gov.
cn/中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分信息的两个层次:符号层——中文/汉语/汉字内容层——符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等)符号层的信息处理拼音文字:小字符集——比较容易非拼音文字:大字符集——难度很大汉字是一个大字符集《说文解字》(东汉):9353字《玉篇》(南朝)收录16,917字《广韵》(宋代)收字26,194字《字汇》(明朝)收录33,197字《康熙字典》(清朝)收录47,043字《汉语大字典》(1992年)5.
6万《中华字海》(1994年)8.
6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有24个符号日文假名只有48个符号符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写体识别印刷体识别在线手写脱机手写整字键盘通用键盘主辅式感应式形码音码形音结合码123456789内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程需要语言知识!
!
!
中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索二、文字信息处理的基本问题文字信息的计算机处理过程要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题.
文字信息的输入文字信息的处理文字信息的输出二、文字信息处理的基本问题文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字.
在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码.
汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码.
这一数码统称为代码(code)在计算机内部处理文字信息时,就像处理数据一样对待.
处理完毕后,再把替代的数码还原成相应的字母或文字.
利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化.

二、文字信息处理的基本问题英文字符的编码标准是ASCII码,即美国信息交换标准代码.
这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码.
为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988.
其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同.

计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文.
键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中.
经过编辑的文本仍然以ASCII码表示.
输出时,这些代码必须转换成字符字形的点阵,以便显示或打印.
因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息.
这些点阵信息构成了所谓"字模库".
字模库的点阵以有点或无点来表示文字和符号.
汉字信息的计算机处理过程与英文信息处理过程是类似的.
不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大.
我国经过多年的研究,汉字处理的基本问题已经解决.

汉字信息处理的基本问题三、中文信息处理主要研究对象基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等.
输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等.
外字处理:动态组字、造字、电子书等.
存储技术:汉字库标准中文、字符编码等.
转换技术:繁简转换等三、中文信息处理主要研究对象信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等中文化:软件的国际化(internationalization)和本土化(localization).
中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言.
为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码.
这就是汉字的交换码.
1981年5月,我国国家标准总局颁布《信息交换用汉字编码字符集》(GB2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码.
收进该标准的字符共有7445个.
其中一级汉字3755个,二级汉字3008个,共计6763个.
一、二级汉字约占近代文献汉字累计使用频度的99.
99%.
为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列.
另外还包括常用符号、序号、GB1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等.
四、汉字编码标准累计使用频度不足0.
001%的汉字数量接近1万个.
为了满足计算机实际应用的需要,我国在GB2312-80的基础上扩大收字的范围,制定了"汉字内码规范"GBK,包含了20902个汉字,又称为扩展的国标码.
在Windows95/98和其后的Windows2000中,装入了GBK的全部汉字和符合GBK和GB2312-80的输入法.
由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字.
为了不与西文的ASCII码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据.
汉字编码标准汉字国标码就是GB2312-80为汉字规定的代码,也称为交换码.
国标码是汉字编码的国家标准.
在GB2312-80代码表中,纵向分为0~93,共94行;横向也是0~93,共94列.
行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列.
其值都从0100001到1111110.
这正是ASCII码的可打印字符的编码.
其范围为十六进制的21~7E.
汉字国标码是将第一字节和第二字节连写而得到的.
由于二进制形式太长,通常用十六进制表示.
例如:汉字第一字节第二字节十六进制区位码啊0110000010000130211601保0110001010001131231703播0110010010010132251805国标码国标码还可以表示成区位码的形式.
在GB2312-80代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位.
将汉字置于其中,由区号与位号标识出汉字在代码表中的位置.
区号与位号都用两位十进制数表示,不足两位的前面补零.
每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码.
这样,每个汉字或其他符号都可以用4位十进制数表示.
因此,区位码可以用来作为汉字输入的编码.

区位码区位码在区位码表中,1~9区为字母、数字、特殊图形符号等;10~15区是未定义的空区;16~55区为一级汉字区;56~87区为二级汉字区.
例如,"啊"字的区位码是1601,"保"字的区位码是1703,"播"字的区位码是1805,等等.
区位码与国标码之间有一定的对应关系:将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数2020H(H表示2020为十六进制数码),就得到对应的国标码.
例如,"啊"字的区位码是1601,分别将区号和位号转换成对应的十六进制数得1001H,再加上2020H就得到"啊"字的国标码为3021H.

汉字机内码是在计算机内部实际用来表示汉字的代码.
不同的计算机系统使用的机内码是不同的.
在微型机中,多采用两字节代码作为机内码.
在大、中型机中,多采用三字节或四字节代码作机内码.
制订机内码必须考虑下列因素:汉字与西文易于区别;中、西文兼容;码长短,每个汉字所占字节数少;与国标码有较简单的对应关系,便于信息转换.

机内码目前,多数微机汉字系统的机内码是以国标GB2312-80规定的双七位代码为依据,经一定转换后用两个字节表示一个汉字.
每个字节的最高位均为1,以此作为汉字的标记,以便于与ASCII码编码的符号相区别.
由国标码转换为机内码的规则是:将十六进制的国标码加上8080H,就得到对应的机内码.

如"大"字的区位码为2083,国标码为3473H,机内码为3473H+8080H=B4F3H.
将B4F3H化为二进制数得:1011010011110011,这就是在计算机中实际使用的机内码的二进制形式.
8080H等于二进制的1000000010000000,国标码加上8080H,可以保证机内码每个字节首位均为1.

机内码五、汉字编码字符集按照一组无歧义的规则而定义的汉字字汇的有序集合.
其中每一个汉字与它的代码表示之间具有一一对应关系.
在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示.
在国际标准化组织ISO的定义中,"无歧义的规则"很重要,制定这些规则的目的是为了确保编码的唯一性,避免重码.

老周互联24小时无理由退款,香港原生IP,28元起

老周互联怎么样?老周互联隶属于老周网络科技部旗下,创立于2019年12月份,是一家具有代表性的国人商家。目前主营的产品有云服务器,裸金属服务器。创办一年多以来,我们一直坚持以口碑至上,服务宗旨为理念,为用户提供7*24小时的轮班服务,目前已有上千多家中小型站长选择我们!服务宗旨:老周互联提供7*24小时轮流值班客服,用户24小时内咨询问题可提交工单,我们会在30分钟内为您快速解答!另免费部署服务器...

ftlcloud9元/月,美国云服务器,1G内存/1核/20g硬盘/10M带宽不限/10G防御

ftlcloud(超云)目前正在搞暑假促销,美国圣何塞数据中心的云服务器低至9元/月,系统盘与数据盘分离,支持Windows和Linux,免费防御CC攻击,自带10Gbps的DDoS防御。FTL-超云服务器的主要特色:稳定、安全、弹性、高性能的云端计算服务,快速部署,并且可根据业务需要扩展计算能力,按需付费,节约成本,提高资源的有效利用率。活动地址:https://www.ftlcloud.com...

美国G口/香港CTG/美国T级超防云/湖北高防云服务器物理机促销活动 六一云

六一云 成立于2018年,归属于西安六一网络科技有限公司,是一家国内正规持有IDC ISP CDN IRCS电信经营许可证书的老牌商家。大陆持证公司受大陆各部门监管不好用支持退款退现,再也不怕被割韭菜了!主要业务有:国内高防云,美国高防云,美国cera大带宽,香港CTG,香港沙田CN2,海外站群服务,物理机,宿母鸡等,另外也诚招代理欢迎咨询。官网www.61cloud.net最新直销劲爆...

unicode编码转换为你推荐
flashwind下载了那个FlashWind极速旋风还需要安装吗?怎么安装?怎样使用?建企业网站建立一个企业网站要多少钱outlookexpress系统自带的outlook express有什么用?怎么用?360公司迁至天津请问360公司的全称是什么?什么是支付宝支付宝是什么概念?北京大学cuteftp资费标准电信4G套餐?滴滴估值500亿开滴滴怎么才能月入一万,平均一天400纯收入,求指点缤纷网五彩缤纷的黑是什么梗?网站制作套餐制作一个公司网站究竟需要多少费用呢??
独立ip主机 欧洲欧洲vps 免费申请域名 cn域名个人注册 美国主机排名 enom 仿牌空间 便宜服务器 香港新世界电讯 商家促销 网站被封 网通服务器ip 镇江联通宽带 最好看的qq空间 国外网站代理服务器 韩国网名大全 卡巴斯基官方免费版 789电视 东莞数据中心 上海联通宽带测速 更多