0引言国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究.
但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究.
实现各个层次的对齐是双语语料库建设的一项重要内容.
1双语语料库建设加拿大的议会会议录(CanadianHansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1,2].
香港科技大学收集和加工了香港立法委员会的会议记录,形成了汉英双语语料库[3].
目前,我们所拥有的有价值的语料大致如下:联合国语料库是联合国近几年来会议记录的筛选和整理,包含1993~2002年的所有语料.
香港新闻语料也是重要的资源,包含三个子语料库:香港议会平行语料、香港法律平行语料、香港新闻平行语料,分别有2000年和2004年两个版本,其中2004年的版本已经做到句子层级的对齐,但文本仍然混乱,当中也存在不少噪声.
所以语料建设的主要工作是句对的抽取和根据句对的评价权重进行筛选.
FBIS(ForeignBroadcastingInformationService)是国外广播信息的语料,包含多国语言的篇章级对齐文本,我们选取其中的中英文本来进行语料库的建设.
汉英新闻杂志平行文本(ChineseEnglishNewsMagazineParallelText)包含的是新闻事件以及它的英文译文,是LDC从台湾的Sinorama杂志收集的,时间跨度为1976~2004年,当中共有6366个故事对,365568句子对.
由于题材和翻译的原因,这部分的语料质量不够好.
2编码格式规范新闻领域双语语料建设与句子对齐方法的研究林哲辉,贾剑锋,郭文(厦门大学信息科学与技术学院,福建厦门361005)摘要:双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.
文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.
HostKvm是一家成立于2013年的国外主机服务商,主要提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。目前商家发布了夏季特别促销活动,针对香港国际/韩国机房VPS主机提供7折优惠码,其他机房全场8折,优惠后2GB内存套餐月付5.95美元起。下面分别列出几款主机套餐配置信息。套餐:韩国KR...
官方网站:点击访问青云互联活动官网优惠码:终身88折扣优惠码:WN789-2021香港测试IP:154.196.254美国测试IP:243.164.1活动方案:用户购买任意全区域云服务器月付以上享受免费更换IP服务;限美国区域云服务器凡是购买均可以提交工单定制天机防火墙高防御保护端口以及保护模式;香港区域购买季度、半年付、年付周期均可免费申请额外1IP;使用优惠码购买后续费周期终身同活动价,价格不...
亚洲云Asiayun怎么样?亚洲云Asiayun好不好?亚洲云成立于2021年,隶属于上海玥悠悠云计算有限公司(Yyyisp),是一家新国人IDC商家,且正规持证IDC/ISP/CDN,商家主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、云虚拟主机、专属服务器托管、带宽租用等产品和服务。Asiayun提供源自大陆、香港、韩国和美国等地骨干级机房优质资源,包括B...