题目原代码

原代码  时间:2021-03-17  阅读:()
《自然语言理解》课程作业课程编号:7548课程属性:专业基础课学时/学分:40/2预修课程:概率论与数理统计、计算机基础知识和编程技术主讲人:宗成庆联系方式:E-mail:cqzong@nlpr.
ia.
ac.
cnTel.
62554263一、作业目的:通过本课程作业使同学进一步加深对《自然语言理解》基础理论的认识,促进对自然语言处理相关内容的学习和了解(包括一些课堂上没有作为主要内容讲解的部分),锻炼和提高同学动手实践的能力和独立思考的能力.
通过课程作业从题目分析、技术调研、数据准备、方法设计、编码实现以及系统调试的全过程练习,使同学初步掌握实现一个自然语言处理系统的基本过程.
二、作业题目本课程作业题目分为两类,一类题目为系统实现类,要求几个人合作完成其中的一个;另一类为技术综述类,要求作者必须有自己的见解,每人选择其中的一个题目进行调研、论述.
鼓励同学选择系统实现类题目.
I)系统实现类1.
实现一个汉语命名实体(NameEntity)自动识别系统命名实体一般指那些特定的名词或名词短语,包括人名、地名、机构名称和其它专用名词等.
2.
实现一个汉语词义自动消歧(disambiguity)程序很多词具有一词多义的特点,但某一个词在特定的上下文中其含义却是确定的.
本作业要求系统能够自动根据不同上下文判断某一词的特定含义.
3.
实现一个汉语句子自动改写系统(paraphrasing)一个句子可以这样说,也可以那样说,但其意思要保持基本不变.
4.
实现一个汉语口语语句自动解析系统口语句子不同于书面语,语句中往往含有大量的重复、省略、颠倒和冗余等非规范语言现象,这给口语句子理解造成很大的困难.
本题目要求对汉语口语句子进行解析,可以是句法结构的分析,如分析出句子的主语、谓语、宾语等句法成分,并给出其依存关系;也可以是语句含义的解析,通过解析后真对一个特定的输入句子能够回答"5W问题"("谁Who"、"什么时候When"、"在哪里Where"、"做什么What","为谁forWhom"或"为什么Why"),并分析出语句语气.
本题目难度较大.
5.
实现一个汉英语块(chunk)自动对齐程序.
给出你设计的系统中语块的定义,设计语块边界的自动确定方法,实现相应的对齐算法.
6.
实现一个汉语文本自动校对(proofreading)系统真对汉语录入文本或语音识别结果中错别字的自动检查和校对.
7.
实现一个英语文本自动文摘(summarization)系统对任意英语文本分析理解后,能够自动生成其相应的文摘.
文摘可以用一段文字描述出来,也可以用一个框架表示出来.
8.
实现一个文本自动分类系统给出文本分类的标准,设计分类算法,并实现分类系统.
9.
实现一个邮件自动过滤系统根据邮件内容,鉴别某一类有害邮件.
10.
实现一个信息自动检索系统用户以关键词形式检索,检索内容来自国际互联网.
本项目较大,需要几个人分工合作.
u基本要求和说明:1)每人选择其中的一个题目,也可以几个人(一般不超过3人)合作其中的一个题目,但彼此之间必须有明确的分工,有一人负责系统集成;2)任何一个题目,都不限定采用的方法,可以采用基于规则的分析方法,也可以采用基于语料库的统计方法,还可以是几种方法的结合,鼓励方法创新,但必须有理论根据或实验数据依据.
3)上述有些题目较大,如果不能找到合作的同学或者几人合作仍然不能完成,可以选做该题目中的部分工作,但请说明你所做工作与整个项目其它部分的关系.
4)完成一份技术报告,报告内容包括:项目的目标、国内外相关工作、自己在本项目中承担工作的创新点、实现模块的核心思想和算法描述、实现模块的结构说明和接口定义及其与其它相关模块的关系、实现结果(测试数据)及分析等;5)提交系统原代码和相关数据,以保证实验系统可以正常运转.
如果是多人合作完成的,应提交集成实验系统.
II)技术综述类1.
最大熵方法在自然语言处理中的应用2.
支持向量机模型(SVM,SupportVectorMachines)与自然语言处理3.
对话分析及内容提取技术研究现状u基本要求和说明:1)综述必须是针对国际、国内相关问题研究状况的全面论述和分析,作者必须有自己的观点和见解;2)综述字数不得少于15000字,参阅的专业文献原则上不得少于60篇,提倡以国外研究论文为主要参考文献.
正文中引用的他人工作必须明确标明详细出处;3)综述包括200左右的中英文摘要.
三、要求与声明1.
要求2004年6月11日前提交作业(系统实现类题目包括技术报告和程序代码),报告中务必留下作者的姓名、单位、联系电话和邮件地址.
提交方式:通过电子邮件发送到如下信箱:yzhou@nlpr.
ia.
ac.
cn或直接提交光盘;2.
选做系统实现类题目的同学,不允许不同同学选做同一个题目的同一项工作,选做技术综述类题目的同学,不允许两个或几个同学选择同一个题目;3.
鼓励充分使用网络资源和其它一切可以利用的资源(包括数据、软件和论文资料),但报告中必须明确标明资源来源,严禁侵害他人知识产权,否则,后果自负;4.
严禁抄袭他人工作,否则,本课程以零分记,并通报研究生院有关部门和学生所在单位.

CloudCone 新增洛杉矶优化线路 年付17.99美元且简单线路测试

CloudCone 商家在以前的篇幅中也有多次介绍到,这个商家也蛮有意思的。以前一直只有洛杉矶MC机房,而且在功能上和Linode、DO、Vultr一样可以随时删除采用按时计费模式。但是,他们没有学到人家的精华部分,要这样的小时计费,一定要机房多才有优势,否则压根没有多大用途。这不最近CloudCone商家有点小变化,有新人洛杉矶优化线路,具体是什么优化的等会我测试看看线路。内存CPU硬盘流量价格...

UCloud:全球大促降价,云服务器全网最低价,1核1G快杰云服务器47元/年

ucloud:全球大促活动降价了!这次云服务器全网最低价,也算是让利用户了,UCloud商家调低了之前的促销活动价格,并且新增了1核1G内存配置快杰型云服务器,价格是47元/年(也可选2元首月),这是全网同配置最便宜的云服务器了!UCloud全球大促活动促销机型有快杰型云服务器和通用型云服务器,促销机房国内海外都有,覆盖全球20个城市,具体有北京、上海、广州、香港、 台北、日本东京、越南胡志明市、...

onevps:新增(支付宝+中文网站),香港/新加坡/日本等9机房,1Gbps带宽,不限流量,仅需$4/月

onevps最新消息,为了更好服务中国区用户:1、网站支付方式新增了支付宝,即将增加微信;原信用卡、PayPal方式不变;(2)可以切换简体中文版网站,在网站顶部右上角找到那个米字旗,下拉可以换中国简体版本。VPS可选机房有:中国(香港)、新加坡、日本(东京)、美国(纽约、洛杉矶)、英国(伦敦)、荷兰(阿姆斯特丹)、瑞士(苏黎世)、德国(法兰克福)、澳大利亚(悉尼)。不管你的客户在亚太区域、美洲区...

原代码为你推荐
渣渣辉商标渣渣辉是什么意思啊?h连锁酒店连锁酒店有哪些刘祚天Mc浩然的资料以及百科谁知道?同ip域名什么是同主机域名同一服务器网站一个服务器放多个网站怎么设置?javmoo.comjavbus上不去.怎么办www.22zizi.com乐乐电影天堂 http://www.leleooo.com 这个网站怎么样?555sss.com不能在线播放了??555www.mfav.org邪恶动态图587期 www.zqzj.org网页源代码什么是网页源代码!打开网页后怎么找?
北京域名注册 荷兰vps singlehop awardspace linode代购 webhosting sockscap parseerror windows2003iso 搜狗12306抢票助手 灵动鬼影 cpanel空间 vip购优汇 免费个人空间 股票老左 双线asp空间 vul 中国linux photobucket 工信部icp备案查询 更多