题目原代码

原代码  时间:2021-03-17  阅读:()
《自然语言理解》课程作业课程编号:7548课程属性:专业基础课学时/学分:40/2预修课程:概率论与数理统计、计算机基础知识和编程技术主讲人:宗成庆联系方式:E-mail:cqzong@nlpr.
ia.
ac.
cnTel.
62554263一、作业目的:通过本课程作业使同学进一步加深对《自然语言理解》基础理论的认识,促进对自然语言处理相关内容的学习和了解(包括一些课堂上没有作为主要内容讲解的部分),锻炼和提高同学动手实践的能力和独立思考的能力.
通过课程作业从题目分析、技术调研、数据准备、方法设计、编码实现以及系统调试的全过程练习,使同学初步掌握实现一个自然语言处理系统的基本过程.
二、作业题目本课程作业题目分为两类,一类题目为系统实现类,要求几个人合作完成其中的一个;另一类为技术综述类,要求作者必须有自己的见解,每人选择其中的一个题目进行调研、论述.
鼓励同学选择系统实现类题目.
I)系统实现类1.
实现一个汉语命名实体(NameEntity)自动识别系统命名实体一般指那些特定的名词或名词短语,包括人名、地名、机构名称和其它专用名词等.
2.
实现一个汉语词义自动消歧(disambiguity)程序很多词具有一词多义的特点,但某一个词在特定的上下文中其含义却是确定的.
本作业要求系统能够自动根据不同上下文判断某一词的特定含义.
3.
实现一个汉语句子自动改写系统(paraphrasing)一个句子可以这样说,也可以那样说,但其意思要保持基本不变.
4.
实现一个汉语口语语句自动解析系统口语句子不同于书面语,语句中往往含有大量的重复、省略、颠倒和冗余等非规范语言现象,这给口语句子理解造成很大的困难.
本题目要求对汉语口语句子进行解析,可以是句法结构的分析,如分析出句子的主语、谓语、宾语等句法成分,并给出其依存关系;也可以是语句含义的解析,通过解析后真对一个特定的输入句子能够回答"5W问题"("谁Who"、"什么时候When"、"在哪里Where"、"做什么What","为谁forWhom"或"为什么Why"),并分析出语句语气.
本题目难度较大.
5.
实现一个汉英语块(chunk)自动对齐程序.
给出你设计的系统中语块的定义,设计语块边界的自动确定方法,实现相应的对齐算法.
6.
实现一个汉语文本自动校对(proofreading)系统真对汉语录入文本或语音识别结果中错别字的自动检查和校对.
7.
实现一个英语文本自动文摘(summarization)系统对任意英语文本分析理解后,能够自动生成其相应的文摘.
文摘可以用一段文字描述出来,也可以用一个框架表示出来.
8.
实现一个文本自动分类系统给出文本分类的标准,设计分类算法,并实现分类系统.
9.
实现一个邮件自动过滤系统根据邮件内容,鉴别某一类有害邮件.
10.
实现一个信息自动检索系统用户以关键词形式检索,检索内容来自国际互联网.
本项目较大,需要几个人分工合作.
u基本要求和说明:1)每人选择其中的一个题目,也可以几个人(一般不超过3人)合作其中的一个题目,但彼此之间必须有明确的分工,有一人负责系统集成;2)任何一个题目,都不限定采用的方法,可以采用基于规则的分析方法,也可以采用基于语料库的统计方法,还可以是几种方法的结合,鼓励方法创新,但必须有理论根据或实验数据依据.
3)上述有些题目较大,如果不能找到合作的同学或者几人合作仍然不能完成,可以选做该题目中的部分工作,但请说明你所做工作与整个项目其它部分的关系.
4)完成一份技术报告,报告内容包括:项目的目标、国内外相关工作、自己在本项目中承担工作的创新点、实现模块的核心思想和算法描述、实现模块的结构说明和接口定义及其与其它相关模块的关系、实现结果(测试数据)及分析等;5)提交系统原代码和相关数据,以保证实验系统可以正常运转.
如果是多人合作完成的,应提交集成实验系统.
II)技术综述类1.
最大熵方法在自然语言处理中的应用2.
支持向量机模型(SVM,SupportVectorMachines)与自然语言处理3.
对话分析及内容提取技术研究现状u基本要求和说明:1)综述必须是针对国际、国内相关问题研究状况的全面论述和分析,作者必须有自己的观点和见解;2)综述字数不得少于15000字,参阅的专业文献原则上不得少于60篇,提倡以国外研究论文为主要参考文献.
正文中引用的他人工作必须明确标明详细出处;3)综述包括200左右的中英文摘要.
三、要求与声明1.
要求2004年6月11日前提交作业(系统实现类题目包括技术报告和程序代码),报告中务必留下作者的姓名、单位、联系电话和邮件地址.
提交方式:通过电子邮件发送到如下信箱:yzhou@nlpr.
ia.
ac.
cn或直接提交光盘;2.
选做系统实现类题目的同学,不允许不同同学选做同一个题目的同一项工作,选做技术综述类题目的同学,不允许两个或几个同学选择同一个题目;3.
鼓励充分使用网络资源和其它一切可以利用的资源(包括数据、软件和论文资料),但报告中必须明确标明资源来源,严禁侵害他人知识产权,否则,后果自负;4.
严禁抄袭他人工作,否则,本课程以零分记,并通报研究生院有关部门和学生所在单位.

Vultr VPS新增第18个数据中心 瑞典斯德哥尔摩欧洲VPS主机机房

前几天还在和做外贸业务的网友聊着有哪些欧洲机房的云服务器、VPS商家值得选择的。其中介绍他选择的还是我们熟悉的Vultr VPS服务商,拥有比较多达到17个数据中心,这不今天在登录VULTR商家的时候看到消息又新增一个新的机房。这算是第18个数据中心,也是欧洲VPS主机,地区是瑞典斯德哥尔摩。如果我们有需要欧洲机房的朋友现在就可以看到开通的机房中有可以选择瑞典机房。目前欧洲已经有五个机房可以选择,...

ProfitServer$34.56/年,5折限时促销/可选西班牙vps、荷兰vps、德国vps/不限制流量/支持自定义ISO

ProfitServer怎么样?ProfitServer好不好。ProfitServer是一家成立于2003的主机商家,是ITC控股的一个部门,主要经营的产品域名、SSL证书、虚拟主机、VPS和独立服务器,机房有俄罗斯、新加坡、荷兰、美国、保加利亚,VPS采用的是KVM虚拟架构,硬盘采用纯SSD,而且最大的优势是不限制流量,大公司运营,机器比较稳定,数据中心众多。此次ProfitServer正在对...

妮妮云(43元/月 ) 香港 8核8G 43元/月 美国 8核8G

妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...

原代码为你推荐
蓝瘦香菇被抢注蓝瘦香菇这梗是怎么火起来的?怎么觉得火得莫名其妙?易烊千玺弟弟创魔方世界纪录易烊千玺带弟弟参加的那个节目是什么外挂购买什么外挂网好点渣渣辉商标渣渣辉传奇哪个职业好硬盘工作原理高人指点:电子存储器(U盘,储存卡,硬盘等)的工作原理广东GDP破10万亿想知道广东城市的GDP排名嘉兴商标注册怎么查商标注册日期lunwenjiance我写的论文,检测相似度是21.63%,删掉参考文献后就只有6.3%,这是为什么?psbc.com怎样登录wap.psbc.comwww.vtigu.com破译密码L dp d vwxghqw.你能看出这些字母代表什么意思吗?如果给你一把破以它的钥匙X-3,联想
阿云浏览器 香港加速器 burstnet 便宜域名 godaddy域名优惠码 鲜果阅读 iis安装教程 godaddy parseerror e蜗牛 北京双线 国外免费asp空间 t云 申请免费空间和域名 申请网站 东莞idc 视频服务器是什么 免费asp空间申请 免费蓝钻 腾讯网盘 更多