转换简体翻译成繁体

简体翻译成繁体  时间:2021-02-18  阅读:()
2015,51(4)1引言目前使用的汉字有简体和繁体两大形式:中国大陆和新加坡等地使用简体字,我国港澳台地区和部分海外华人社区使用繁体字.
随着两岸三地的交流越来越频繁,简繁体字给交流带来了不便利.
简繁转换技术对汉字文化圈交流起到重要作用,广泛应用于新闻出版、文化教育、古籍数字化处理等领域.
简化字总表中共收2236个字,其中大多数简体字的意义和用法与对应的繁体字是一样的,具有一一对应关系,这种情况通过编码转换就可以正确处理.
然而,还有约156个简体字对应多个繁体字,例如简化字"干"对应四个不同的繁体字"幹""干""乾""榦".
一对多简体字的转换是汉字简繁转换的重点和难点.
一对多简体字只有通过对文本进行语法和语义分析,利用语句甚至篇章的上下文语境才能将其正确转换为对应的繁体字[1].
因此,一对多简繁汉字转换是一个值得研究的课题,对汉字简繁转换性能起到至关重要的作用.
两岸三地现已有不少机构在进行简繁字转换的研究,如:中国科学院软件研究所,四通利方资讯有限公司,新天地公司,IBM公司,倚天资讯股份公司及其他研发团队等.
目前也有不少软件内嵌有简繁字转换功能,如MicrosoftOffice,Sun的OpenOffice;同时在网络上也有不少的简繁体字转换工具,如谷歌翻译,快典网提供的简繁体转换功能等.
但是现有的这些方法在处理一基于对照表以及语义相关性之简繁汉字转换庞祯军,姚天昉PANGZhenjun,YAOTianfang上海交通大学计算机科学与工程系,上海200240DepartmentofComputerScienceandEngineering,ShanghaiJiaotongUniversity,Shanghai200240,ChinaPANGZhenjun,YAOTianfang.
Chinesecharactersconversionsystembasedonlookuptableandstatisticalmeth-ods.
ComputerEngineeringandApplications,2015,51(4):115-119.
Abstract:TherearecurrentlytwoformsofChinesecharacters:MainlandChinaandSingaporeusesimplifiedcharacters;PartofHongKong,MacaoandTaiwanregionsandoverseasChinesecommunitiesusetraditionalcharacters.
MostofthemeaningandusageofsimplifiedandtraditionalChinesecharactersarethesame.
Inthissituation,theconversionbetweenthemcanbeprocessedcorrectlythroughtrans-coding.
However,thereareaconsiderablesimplifiedcharacterswhichcanbetransformedtomanyTraditionalcharacters,whichisthekeyanddifficultyofSimplifiedandTraditionalfontconversion.
Basedonthisbackground,amethodbasedonLookupTableandstatisticalmethodisproposed.
Intheevaluationofcon-versionbetweensimplifiedandtraditionalChinesecharacters,thissystemrankedfirstataccuracy95.
6%.
Keywords:Chinesecharacter;traditionalChinesecharacters;conversionbetweensimplifiedandtraditionalChinesecharacters摘要:目前使用的汉字有简体和繁体两大形式:中国大陆和新加坡等地使用简体字,我国港澳台地区和部分海外华人社区使用繁体字.
其中大多数简体字的意义和用法与对应的繁体字是一样的,具有一一对应关系,这种情况通过查找简繁对照表就可以正确处理.
然而,还有相当一部分简体字对应多个繁体字,这是简繁字转换的重点和难点.
基于此背景提出基于对照表以及语义相关性的简繁汉字转换方法.
在教育部语信司及中国中文信息学会联合举办的一对多简繁转换评测中,此一对多简繁转换系统以95.
6%的准确率排名第一.
关键词:简体字;繁体字;简繁体字转换;一对多简繁转换文献标志码:A中图分类号:TP391doi:10.
3778/j.
issn.
1002-8331.
1309-0421作者简介:庞祯军(1987—),男,硕士生,主要研究方向为意见抽取,信息抽取,自然语言处理;姚天昉(1957—),男,博士,副教授,硕导,主要研究方向为意见挖掘、信息抽取、机器学习、自然语言处理等.
E-mail:pzj_636484@163.
com收稿日期:2013-09-27修回日期:2013-10-30文章编号:1002-8331(2015)04-0115-05CNKI网络优先出版:2014-02-24,http://www.
cnki.
net/kcms/doi/10.
3778/j.
issn.
1002-8331.
1309-0421.
htmlComputerEngineeringandApplications计算机工程与应用115ComputerEngineeringandApplications计算机工程与应用2015,51(4)对多转换字时,准确率不高,仍需要人工来校正[2];简而言之,因为存在一对多简体字,使其在搭配不同的词或即使是同一词组在不同的语境下所对应的繁体字都不一样,例如:简体词组"晒干"的"干"字对应繁体字"乾",而"树干"的"干"字对应繁体字"幹";词组"下面"在表方位时"面"字对应繁体字"面",而当其为动宾短语和面食有关时,对应繁体字的"麵"字,含义为煮面时把面放到锅里[3].
另外简繁汉字的字形差异,固定用语和地名人名等因素也会影响转换的准确率[4].
当前的简繁汉字转换领域基本还是以理论分析研究为主,而本文提供了一个切实可行且高准确率的方法及系统.
本文论述了基于对照表以及语义相关性的简繁汉字转换方法.
对于繁体转简体(忽略极少部分的一个繁体字对应多个简体字的情况)以及只存在一对一关系的简体字,采用直接查对照表的方式就可以解决,因此本文的重点在于论述如何处理存在一对多关系的简体字之转换,本文所描述的一对多简繁转换方法在教育部语信司及中国中文信息学会联合举办的一对多简繁体字转换评测活动中以准确率95.
6%排名第一.
本文将按照顺序描述简繁转换系统的工作流程,系统构造方法以及与其他转换系统之间的准确率对比,最后分析系统未正确转换的一对多简体字之出错原因.
2系统描述及方法2.
1系统工作流程系统包括:繁体转简体对照表,一对一简体转繁体对照表,断词模块以及语义相关性模块等.
对于输入系统的文本,按照阅读顺序对文本中的简体字一一转换.
处理每个字的流程:(1)若为繁体字转简体字任务,则查找繁体转简体对照表直接转换;若为简体字转繁体字且该字为一对一简体字,则查一对一简体转繁体对照表直接转换.
否则转(2).
(2)启动断词模块进行断词,若截取的词组在任何语境下只有一个目标词组,则将该简体字转换到对应的目标繁体字;否则转(3).
(3)启动语义相关性模块,根据统计信息进行简体字的转换,若根据统计信息能够正确转换简体字则输出对应的繁体字;否则转(4).
(4)将简体字转换为系统设置的默认繁体字.
虽然也存在一个繁体字对应多个简体字的情况,但这种情况少之又少,现有的简繁转换系统基本都将繁体字转简体字的任务处理为一对一转换.
2.
2系统构建2.
2.
1构建对照表需要构建的对照表有繁体字转简体对照表和一对一简体字转繁体字对照表.
此部分的繁体字与简体字的对应关系主要借鉴了北大中文系李铎博士所制作的>,在滤去>中的部分错误后构建了繁体字转简体对照表和一对一简转繁对照表.
2.
2.
2构建一对多简体字断词模块在处理一对多简体字时,根据简体字所在的词组去把简体字转换到对应的繁体字是比较有效率的处理方式.
如可直接将词组"晒干"的"干"字转换到目标繁体字"乾".
此时,需要在系统中引入断词模块,去匹配句子中包含当前待转换字的最优目标词.
如句子"这树干很粗",在转换到"干"字时,应匹配词"树干"并将"干"字转换到繁体字"幹".
为了提高系统断词的效率,需要对每个一对多简体字构造一个包含此一对多简体字的词组转换树;同时保存每个一对多简体字的最长词组长度以减少字符串比较次数,以提高匹配时的效率.
以"干"字为例,所构造的树部分如图2.
树中每个节点保存两个数据:节点关键字和以根到本节点之路径中"节点关键字序列"结尾的词组转换列表.
以图2所示数据为例:最左边的节点表示为树的输入抽取一字查表转换简转繁且一对一判断是何种任务繁转简查表转换一对多断词处理成功语义相关性模块处理否,有多个目标词判断词是否只有一个目标词是,只有一个目标转换到目标繁体字处理不成功转换到默认繁体字转换完毕结束未完毕图1系统工作流程图云(干青云-干)干(能干-幹,风干-乾)根节点电坤(干坤-乾,弄干坤-乾)部(干部-幹)青池(干电池-乾)图2词组转换树1162015,51(4)根,以干结尾的词组有"能干","风干"等,其中词组"能干"的"干"字转换为目标繁体字"幹","风干"中的干字转换为目标繁体字"乾".
第三列的"池"这个节点,从根节点到当前节点的关键字序列为"干电池",此节点保存以"干电池"结尾的词组之转换列表.
同时在简体字的词组转换树中,每个词组需要保存简体字在词组中的位置,因为待转换的简体字可能在词组中出现多次,如一对多简体字"么"在词组"么么小丑"中出现了两次且该词组对应的繁体词组为"么麽小丑",故应指明待转换字是词组中的位置.
同一个简体字的某个词组可能会包含另一个词组,而在这两个词组中待转换简体字的目标繁体字可能会不一致,因此在进行断词时应采用最长匹配.
如词组"辟地"中的"辟"字应转换为繁体字的"闢",而词组"其次辟地"中的"辟"字应转换为繁体字的"辟".
但是即使采用最长匹配也会出现问题,如待转换句子"在外面糊了纸",在处理"面"字时可匹配词"外面"和"面糊",且这两个词的目标繁体字不一致,见表2.
本文采用对每个词先置权值的方式来处理这种情况:对常见的词赋予一个高的权值,越常见值越高;若还是有冲突,则靠前匹配.
在本例中,词"外面"比"面糊"的权值大,故应取匹配词为"外面";假如"外面"的权值和"面糊"的权值相同,则根据靠前匹配规则还是应选取匹配词"外面".
在断词后,若所匹配的词中的简体字只有一个目标繁体字,则直接转换到该繁体字.
否则将进入语义相关性模块进行处理.
2.
2.
3构造语义相关性模块在断词模块只匹配到待转换字或者所匹配到的词存在多个目标繁体字时,需要启动语义相关性模块来转换待转换的简体字.
语义相关性模块是根据每个一对多简体字处于何种上下文环境来判定待转换字的语义,而将待转换字转换到目标繁体字.
如对于待转换字"干",如果句子中出现六十四卦中的"坤,屯,蒙,师,讼"等,则应将其转换为"乾".
使用此方式需要为一对多简体字的每个目标繁体字建立语义相关性信息,在进行转换时统计每个目标繁体字在上下文环境下所得到的加权分数,并取得分最高者作为最终的目标繁体字.
例如:待转换简体字:干目标繁体字的部分语义相关性词条:乾:八卦、六十四卦、坤、震、巽、坎、离、艮、兑、讼……干:矛、盾、戈、河、江….
待转换句子:"八卦为:干、坤、震、巽、坎、离、艮、兑.
"加权结果:若乾的语义性相关词条中"巽","六十四卦"和"艮"的权值为2,其他字词的权值为1;同时上下文信息范围为前后8个字符.
然后针对每个目标繁体字进行加权评分,则目标繁体字"乾"总得分为6,其他目标繁体字得分均为0,则应将"干"字转换为繁体字"乾".
在加权过程中,不同的字词所带来的区分度是有差异的,像例子中的"巽"字比"离"字更能决定将简体"干"转换成繁体字"乾",因此可以在语义性相关词条中赋予它们不同的权值.
同时上下文信息不仅仅只考虑汉字,也考虑了标点符号所带来的影响.
例如简体句子"这一出>甚是精彩.
"由于简体词组"一出"可以转换为繁体词组"一出"与"一齣",而在表示戏曲时正确的转换应为"一齣".
戏曲名一般会使用标点符号">",则此时标点符号作为上下文信息也会有很重要的作用.
另外像标点符号":"对一对多简体字"云"的简繁转换影响很大,其他例子不在此赘述.
同时还设置了上下文信息的影响范围,在实验过程中发现为避免信息干扰应限制上下文信息的范围,据经验值一般前后均为8个字符左右较好,不宜太大.
编写语义相关性词条,可以参考繁体字的相关资料,作者参考了>,这样不需要对繁体字有很深的造诣也能够编写出质量不错的语义相关性词条.
同时,应选择那些具有大区分度的词作为候选词组,这样才能保证转换的准确度.
3实验测试结果与分析在系统构建成功后,共处理简体字4908个,繁体字5503个;一对多简体字156个,一对多词组转换树包含词组34207组,词组的获取方式主要有两种:从>获取和维基百科的简繁转换一对多对应表获取,但维基百科的词组有不少错误,需要人工滤过处理.
3.
1一对多简繁转换评测本文方法的一对多简繁转换系统参加了教育部语信司和中国中文信息学会联合举办的简繁转换评测活动,以一对多简繁转换准确率95.
6%在评测中排名第一.
评测活动(任务一)针对一对多简繁汉字的转换,对给定数据集(以utf-8方式编码,全部为包含有一对多简体字的句子),要求参加评测的系统给出句子中指定简体字的目标繁体字.
本次评测活动共包含一对多简体字135个,测试数据76540条;测试数据包括文言文,诗歌,现代小说等各种形式的文字.
且给定测试数据格式为:待转换词组目标繁体词组辟地闢地其次辟地其次辟地表1最长匹配示例待转换词组目标繁体词组权值外面外面7面糊麵糊5表2匹配冲突示例庞祯军,姚天昉:基于对照表以及语义相关性之简繁汉字转换117ComputerEngineeringandApplications计算机工程与应用2015,51(4)句子1:他对这件事毫无干劲句子2:是用干冰和金属录制的评价结果指标:一对多简化字转换准确率=评价语料中转换正确的字数目评价语料中待转换的字数目本次共有11个单位或个人参加了一对多简繁字的转换评测,性能指标结果如表3(系统G为本文所提的系统).
通过本次评测活动表明,本文的方法是行之有效的.
实现了本文方法的简繁转换系统也是处于相对较好层次的.
3.
2自设计实验由于评测活动中其他系统的详细结果无法获取,因此为了获得一些其他简繁翻译系统的详细运行结果,使用评测数据去测试了谷歌翻译,office2010,office2007,同文堂和快典网的简繁翻译功能.
通过比较可以看出,谷歌翻译的一对多简繁转换处理结果相对较好,不过谷歌翻译也存在问题.
在对测试结果进行细致分析后发现谷歌翻译在转换能够成词的一对多简体字时效果不错,但是在不能够成词时,该系统就只是将其转换到最常用的词.
例如在简体句子"十二支:子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥"中的简体字"丑",其对应的繁体字也应为"丑"字,而谷歌翻译却将其转换到繁体的"醜"字;但是如果是转换词组"子丑",则谷歌翻译能够正确处理.
从这里可以看出谷歌翻译应主要是采用词库方式去匹配待转换词,若不能匹配词库则将其转换到所设置的默认目标词.
通过查看详细的转换结果,发现office2007和office2010的简繁转换结果完全一样,该功能在office系列换代过程中完全没有改进.
将office系列的转换结果与谷歌翻译的转换结果进行比较后发现谷歌翻译存在的问题,对于office系列其都是存在的,同时office系列在转换能够成词的一对多简体字时的效果不如谷歌翻译.
不过也有office转换正确而谷歌翻译转换错误的情况,例如简体词组"干妈",其对应的繁体词组为"乾媽",office转换正确但谷歌翻译将该简体词组转换成繁体"干媽".
评测活动考察的只是一对多的转换正确率,为了检测本系统简体转繁体功能的整体性能,从台湾网站上搜集了总汉字数为1185089的测试数据,简繁语料中出现过的汉字为7983个,一对多简体字出现的次数为159823次.
整体测试效果如表5.
office系列的简繁转换功能由于存在专业术语转换,因此无法正确统计其转换的准确率,故不在此实验中测试.
同时本表以所收集到繁体文本作为参考标准,而不去考虑因繁体字存在不规范用字的对结果评判的影响.
如谷歌翻译转换简体的"叹"字时,其将该字转换为繁体字"嘆"而所使用的繁体字参考答案为"歎".
从表5的一对多转换可以看出,各系统在此测试数据上的运行结果比在评测数据的运行结果上要好,其主要原因是该语料中的一对多简体字成词概率较高;同时可以看出一对一转换同文堂的系统转换效果最好,因该系统的一对一词表和参考答案较契合.
在发现本系统的一对一存在这些转换错误后,已对一对一词表进行了修改.
通过自设计实验的结果可以看出系统整体上的简繁转换能力也是名列前茅的,在词库基础上使用上下文信息进行简繁转换有一定创新性也有实际的效果.
引文[6]中所使用的简繁转换策略也有一定的创新性,该文作者使用繁体字语料库构建语言模型以及收集到的维基百科词组对照表,通过计算语言模型的分数来达到提升简体字转换成繁体字正确性.
其语言模型主体思想是考虑一个句子中字词组合的几率,几率越高代表越可能符合正确的文法.
该系统在该作者使用的实验数据上能达到94.
84%的较好转换准确率.
3.
3结果分析根据评测组委会发布的简繁一对多转换的参考答案和自设计实验的运行结果,查看了转换出错的测试数据,统计出出错主要有以下几类:系统代号系统C、系统G系统I系统H系统J系统E系统A系统F系统D系统K系统B性能(转换准确率)0.
9560.
9260.
9160.
8930.
8800.
8740.
8450.
8330.
8080.
805表3系统性能(1)系统名称谷歌翻译office2010office2007同文堂快典网性能(一对多转换准确率)0.
92130.
89640.
89640.
83710.
7882表4系统性能(2)系统名称谷歌翻译同文堂快典网本系统一对一转换错误数487次354次768次532次一对多转换错误数8264次20112次24056次5578次表5系统运行结果1182015,51(4)(1)古人名,固定用语转换出错.
此类问题可通过增加词库词条来解决一部分,同时在语义相关性中为每个词增加合适的相关性词汇以期能够解决更多的问题.
但因存在很少一部分繁体字可以对应多个简体字的情况,如此表中的第一条数据中的"曾运干",因其是人名而又存在简体字"乾",故此测试数据之正确性值得商榷.
(2)有多个目标繁体词组的情况处理出错.
此类词组是少数,通过完善语义相关性模块中的词条即可达到正确的处理效果.
如简体词组"复姓"的语义相关性词条可设置为"复姓-2-復、原来$複、诸葛、司马、司徒、欧阳、令狐".
其中繁体词组"復姓"表示恢复原来的姓氏,繁体词组"複姓"指由两个及以上(以两个为主)汉字的组成的姓氏.
(3)断词错误第一个例子中的"无干"和"干净"均有保存,但应采取的是权值比较,故系统选择匹配词"无干"而导致错误;第二个例子中的词组"干处"未保存在词库中故出错;第三个例子中的词组"每面"未保存在词库中故出错.
通过分析出错原因可知,若碰到词组匹配冲突可采取权值比较及语义相关性分析综合的方式来解决此类问题.
即在出现断词冲突时,可通过语义相关性模块对待转换字的各个目标繁体字进行评分,再给综合断词结果所对应目标繁体字进行一定的加分,最后通过最终的评分来选择目标繁体字.
(4)语义相关性处理不够好语义相关性词条的添加是一项繁琐,需要仔细思考的工作,要有一定的繁体字功底;关键是选取足够的具有强区分性的词组.
这项工作若有相关专业人士的帮助将会事半功倍.
从维基百科收集的部分数据存在错误,通过这一次评测可以将相关词组纠正过来;在后续系统的运行过程中会发现其错误并纠正绝大部分问题.
此类问题的存在是因为当前互联网上简繁转换的资料良莠不齐,只有从正规机构得到的资料才会有高的可信性.
4总结与展望虽然在过去的十余年里,很多研发机构和公司都在努力研发实用化的简繁转换工具,但是目前还没有一个真正的精密转换系统被研发出来,同样的内容,不同的工具转换出不同的结果来,导致结果的不可信.
究其原因,解决问题的方法没有找准,长期以来都是企图依靠纯技术解决问题,而缺乏对文字学的研究导致部分问题迟迟无法解决.
本文主要研究改善传统的简繁转换只考虑一对一直接转换,而对一对多简体字转繁体字考虑不全面导致一对多简体字转繁体字无法有效地执行.
因此提出了基于对照表和语义相关性的简繁字转换方法,通过评测组委会给出的性能评价结果表明本文的方法是行之有效的.
在具体实现系统的过程中还需要对一对多词库的完善和语义相关性规则的完善,这是实现方法的重点难点.
语义相关性的完善需要对繁体字有一个较为深入的研究,选取足够的具有强区分性的词组.
需要对156个一对多简体字建立完整的语义相关性资料,这本身就是一个具有挑战性的工作.
语义相关性是简繁转换中计算机技术和文字学研究的良好结合点.
同时本文描述的方法是一个开放性的方法,在对一对多词库和语义相关性词条进行逐步完善的过程中,将会越来越圆满地解决简繁转换中的瓶颈问题.
参考文献:[1]教育部语信司,中国中文信息学会.
简繁汉字智能转换评测大纲[Z].
待转换字干台台周范钟数据曾运干正读:"罪重者比于上刑,罪轻者比于下刑也元萨都剌《钓台夜兴》诗:"仙茶旋煮桐江水,坐客遥分石壁灯《明史·刘台传》:"瀚(张瀚)生平无善状……官缺必请命居正,所指授者,非楚人亲戚知识,则亲戚所援引也;非宦楚受恩私故,则恩故之党助也《语文·周语上》:"昔昭王娶于房,曰房后范望注:"哜哜,忧悲钟广言注:"喇子,又名红宝石,色红,透明正确目标乾臺臺周范鍾实际结果幹台台週範鐘表6固定用语出错示例待转换字干面面待转换词组不干挂面白面可选目标不干不乾掛麵掛面白麵白面目标词含义不愿意,不罢休有水的,湿的面的一种与这人不熟悉但见过面粉,用来吃的白净,多形容读书人组合示例我不干,你凭什么这样桌面不干,有水煮挂面来吃我和他挂面认识你磨的白面真好!
你真是白面书生!
表7词组多目标转换出错示例待转换字干干面数据元高文秀《黑旋风》第一折:"我和你待摆手去横行,管教他抹着我的无干净唐杜甫《茅屋为秋风所破歌》:"床头屋漏无干处,雨脚如麻未断绝八角或六角形的灯,每面糊绢或镶玻璃,并画有彩色图画,下面悬挂流苏正确断词干净干处每面实际断词无干无干面糊表8断词错误示例(下转153页)庞祯军,姚天昉:基于对照表以及语义相关性之简繁汉字转换1192015,51(4)参考文献:[1]何关培.
BIM和BIM相关软件[J].
土木建筑工程信息技术,2010,2(3):111-117.
[2]Autodesk.
Laiserin'sexplanationofwhy'BIM'shouldbeanindustrystandard-term[M].
[S.
l.
]:CRCPressTaylor&FrancisGroup,2010:474-477.
[3]莫蓉.
工程类几何模型分类与聚类的现状与趋势[J].
计算机集成制造系统,2010,16(3):449-462.
[4]WesselR,OchmannS,VockR,etal.
Efficientretrievalof3Dbuildingmodelsusingembeddingsofattributedsub-graphs[J].
ComputerCraphicsTechnicalReports,2011(2).
[5]JeongSang-Kyu,BanYong-Un.
Developingatopologicalinformationextractionmodelforspacesyntaxanalysis[J].
BuildingandEnvironment,2011,46:2442-2453.
[6]WesselR,Bl¨umelI,KleinR.
Theroomconnectivitygraph:Shaperetrievalinthearchitecturaldomain[C]//Proceed-ingsofWSCG2008,2008.
[7]DengM,ChengT,ChenX,etal.
Multi-leveltopologicalrelationsbetweenspatialregionsbasedupontopologicalinvariants[J].
GeoInformation,2007,11(2):239-267.
[8]张愚,王建国.
再论"空间句法"[J].
Architect,2004(3):33-44.
[9]ChaoLC,TongLI.
Waferdefectpatternrecognitionbymulticlasssupportvectormachinesbyusinganoveldefectclusterindex[J].
ExpertSystemswithApplications,2009,36(6):10158-10167.
[10]YanH,ChuY,Li,etal.
Aquantitativedescriptionmodelfordirectionalrelationsbasedondirectiongroup5[J].
GeoInformatica,2006,10(2):177-195.
[11]唐发明,王仲东,陈绵云.
支撑向量机多类分类算法研究[J].
控制与决策,2005,20(7):746-749.
[12]ManikandanJ,VenkataramaniB.
StudyandevaluationofamulticlassSVMclassifierusingdiminishinglearningtechnique[J].
Neurocomputing,2010,73(10/12):1676-1685.
[13]SureshS,SundararajanN.
Risk-sensitivelossfunctionsforsparsemulti-categoryclassificationproblems[J].
Informa-tionSciences,2008,178(12):2621-2638.
[14]CheongS,SangHO,LeeSY.
Supportvectormachineswithbinarytreearchitectureformulti-classclassifica-tion[J].
NeuralInformationProcessing,2004,2(3):47-51.
[15]LawMHC.
Simultaneousfeatureselectionandclusteringusingmixturemodel[J].
IEEETransactionsonPatternAnalysisandMachineIntelligence,2004,26(9):1154-1166.
[16]潘丽芳,杨炳儒.
基于簇的K最近邻(KNN)分类算法研究[J].
计算机工程与设计,2009,30(18):4260-4265.
[10]张净,孟小嵩.
基于WSNS矿山设备振动监测的时间同步算法研究[J].
传感器与微系统,2013,32(2):30-33.
[11]PalChaudhuriS,SahaAK,JohnsonDB.
Adaptiveclocksynchronizationinsensornetworks[C]//Proceedingsofthe3rdInternationalSymposiumonInformationPro-cessinginSensorNetworks.
UnitedStates:AssociationforComputingMachinery,2004:340-348.
[12]MehmetLF,VuranMC.
无线传感器网络[M].
徐平平,译.
北京:电子工业出版社,2013.
[13]谢安,李冬红.
概率论与数理统计[M].
北京:高等教育出版社,2011.
[14]王汝传,孙力娟.
无线传感器网络技术导论[M].
北京:清华大学出版社,2012.
[15]SichitiuML,VeerarittiphanC.
Simple,accuratetimesyn-chronizationforwirelesssensornetworks[C]//ProcoftheIEEEWirelessCommunicationsandNetworking,2003.
[16]江禹生,樊宇.
无线传感器网络双向成对时间同步优化方法[J].
计算机工程,2013,39(5):123-127.
[17]ElsonJ,GirodL,EstrinD.
Fine-Grainednetworktimesynchronizationusingreferencebroadcast[J].
ACMSIGOPSOPerSystRev,2002,36(SI):147-163.
(上接99页)[2]王晓明,魏林梅.
谈简繁转换的几个关键问题[Z].
5thCDF研讨会数位社群双效(CD2E),2008-12-24.
[3]李树德.
Word"中文简繁转换"存在的问题与解决对策[EB/OL].
[2013-02-08].
http://www.
yywzw.
com/show.
aspxid=1570&cid=142.
[4]刘汇丹,吴健.
基于词语消歧的分层次汉字简繁转换系统[Z].
5thCDF研讨会数位社群双效(CD2E),2008-12-24.
[5]谷歌翻译.
[2013-04-05].
http://translate.
google.
com.
hk/#zh-CN/en/.
[6]李民祥,杨秉哲.
基於对照表以及语言模型之简繁字体转换[J].
台湾:朝阳科技大学资讯工程系,2011.
[7]快典网[EB/OL].
[2013-04-05].
http://ft.
kdd.
cc/.
[8]王宁,王晓明.
两岸四地汉字的转换与沟通[Z].
第三届两岸四地中文数位化合作论坛,2005-10.
[9]HeppM,SiorpaesK,BachlechnerD.
HarvestingWikicon-sensus:usingwikipediaentriesasvocabularyforknowl-edgemanagement[J].
IEEEInternetComputing,2007,11(5):54-65.
[10]李铎.
简繁字对应表[Z].
北京:北京大学语言文学系,2009.
(上接119页)樊永生,李昌华,李智杰,等:一种建筑信息模型分类方法153

欧路云:美国CUVIP线路10G防御,8折优惠,19元/月起

欧路云新上了美国洛杉矶cera机房的云服务器,具备弹性云特征(可自定义需要的资源配置:E5-2660 V3、内存、硬盘、流量、带宽),直连网络(联通CUVIP线路),KVM虚拟,自带一个IP,支持购买多个IP,10G的DDoS防御。付款方式:PayPal、支付宝、微信、数字货币(BTC USDT LTC ETH)测试IP:23.224.49.126云服务器 全场8折 优惠码:zhujiceping...

安徽BGP云服务器 1核 1G 5M 29元/月 香港云服务器 1核 1G 19元首月 麻花云

麻花云怎么样?麻花云公司成立于2007年,当前主打产品为安徽移动BGP线路,数据中心连入移动骨干网。提供5M,10M大带宽云主机,香港云服务器产品,数据中心为香港将军澳机房,香港宽频机房 cn2-GIA优质线路、采用HYPER-V,KVM虚拟技术架构一、麻花云官网点击直达麻花云官方网站合肥网联网络科技有限公司优惠码: 专属优惠码:F1B07B 享受85折优惠。最新活动 :双11 云上嗨购 香港云主...

搬瓦工:新增荷兰机房 EUNL_9 测评,联通 AS10099/AS9929 高端优化路线/速度 延迟 路由 丢包测试

搬瓦工最近上线了一个新的荷兰机房,荷兰 EUNL_9 机房,这个 9 的编号感觉也挺随性的,之前的荷兰机房编号是 EUNL_3。这次荷兰新机房 EUNL_9 采用联通 AS9929 高端路线,三网都接入了 AS9929,对于联通用户来说是个好消息,又多了一个选择。对于其他用户可能还是 CN2 GIA 机房更合适一些。其实对于联通用户,这个荷兰机房也是比较远的,相比之下日本软银 JPOS_1 机房可...

简体翻译成繁体为你推荐
今日热点怎么删除怎么删除手机百度实时热点如何建立一个网站要建立一个网站怎么弄啊?雅虎天盾高手进来看看我该怎么办 新装的ie8 内存使用率达到100%了ejb开发什么是EJB?它是干什么的?和JAVA,JSP有关系吗?他们各有什么特点和用途?小米手柄小米手柄能连几个手机分词技术怎样做好百度分词技术和长尾词优化怎么上传音乐怎么上传音乐到网上宽带接入服务器互联网的接入方式有哪几种?服务器连接异常手机服务器连接异常qq等级表谁能告诉我QQ等级列表?
上海域名注册 江西服务器租用 域名服务器的作用 域名备案只选云聚达 漂亮qq空间 godaddy支付宝 国外免费空间 秒杀汇 nerds 可外链相册 昆明蜗牛家 绍兴电信 搜索引擎提交入口 最漂亮的qq空间 架设邮件服务器 石家庄服务器托管 群英网络 攻击服务器 脚本大全 第八届中美互联网论坛 更多