《自然语言理解》课程作业课程编号:7548课程属性:专业基础课学时/学分:40/2预修课程:概率论与数理统计、计算机基础知识和编程技术主讲人:宗成庆联系方式:E-mail:cqzong@nlpr.
ia.
ac.
cnTel.
62554263一、作业目的:通过本课程作业使同学进一步加深对《自然语言理解》基础理论的认识,促进对自然语言处理相关内容的学习和了解(包括一些课堂上没有作为主要内容讲解的部分),锻炼和提高同学动手实践的能力和独立思考的能力.
通过课程作业从题目分析、技术调研、数据准备、方法设计、编码实现以及系统调试的全过程练习,使同学初步掌握实现一个自然语言处理系统的基本过程.
二、作业题目本课程作业题目分为两类,一类题目为系统实现类,要求几个人合作完成其中的一个;另一类为技术综述类,要求作者必须有自己的见解,每人选择其中的一个题目进行调研、论述.
鼓励同学选择系统实现类题目.
I)系统实现类1.
实现一个汉语命名实体(NameEntity)自动识别系统命名实体一般指那些特定的名词或名词短语,包括人名、地名、机构名称和其它专用名词等.
2.
实现一个汉语词义自动消歧(disambiguity)程序很多词具有一词多义的特点,但某一个词在特定的上下文中其含义却是确定的.
本作业要求系统能够自动根据不同上下文判断某一词的特定含义.
3.
实现一个汉语句子自动改写系统(paraphrasing)一个句子可以这样说,也可以那样说,但其意思要保持基本不变.
4.
实现一个汉语口语语句自动解析系统口语句子不同于书面语,语句中往往含有大量的重复、省略、颠倒和冗余等非规范语言现象,这给口语句子理解造成很大的困难.
本题目要求对汉语口语句子进行解析,可以是句法结构的分析,如分析出句子的主语、谓语、宾语等句法成分,并给出其依存关系;也可以是语句含义的解析,通过解析后真对一个特定的输入句子能够回答"5W问题"("谁Who"、"什么时候When"、"在哪里Where"、"做什么What","为谁forWhom"或"为什么Why"),并分析出语句语气.
本题目难度较大.
5.
实现一个汉英语块(chunk)自动对齐程序.
给出你设计的系统中语块的定义,设计语块边界的自动确定方法,实现相应的对齐算法.
6.
实现一个汉语文本自动校对(proofreading)系统真对汉语录入文本或语音识别结果中错别字的自动检查和校对.
7.
实现一个英语文本自动文摘(summarization)系统对任意英语文本分析理解后,能够自动生成其相应的文摘.
文摘可以用一段文字描述出来,也可以用一个框架表示出来.
8.
实现一个文本自动分类系统给出文本分类的标准,设计分类算法,并实现分类系统.
9.
实现一个邮件自动过滤系统根据邮件内容,鉴别某一类有害邮件.
10.
实现一个信息自动检索系统用户以关键词形式检索,检索内容来自国际互联网.
本项目较大,需要几个人分工合作.
u基本要求和说明:1)每人选择其中的一个题目,也可以几个人(一般不超过3人)合作其中的一个题目,但彼此之间必须有明确的分工,有一人负责系统集成;2)任何一个题目,都不限定采用的方法,可以采用基于规则的分析方法,也可以采用基于语料库的统计方法,还可以是几种方法的结合,鼓励方法创新,但必须有理论根据或实验数据依据.
3)上述有些题目较大,如果不能找到合作的同学或者几人合作仍然不能完成,可以选做该题目中的部分工作,但请说明你所做工作与整个项目其它部分的关系.
4)完成一份技术报告,报告内容包括:项目的目标、国内外相关工作、自己在本项目中承担工作的创新点、实现模块的核心思想和算法描述、实现模块的结构说明和接口定义及其与其它相关模块的关系、实现结果(测试数据)及分析等;5)提交系统原代码和相关数据,以保证实验系统可以正常运转.
如果是多人合作完成的,应提交集成实验系统.
II)技术综述类1.
最大熵方法在自然语言处理中的应用2.
支持向量机模型(SVM,SupportVectorMachines)与自然语言处理3.
对话分析及内容提取技术研究现状u基本要求和说明:1)综述必须是针对国际、国内相关问题研究状况的全面论述和分析,作者必须有自己的观点和见解;2)综述字数不得少于15000字,参阅的专业文献原则上不得少于60篇,提倡以国外研究论文为主要参考文献.
正文中引用的他人工作必须明确标明详细出处;3)综述包括200左右的中英文摘要.
三、要求与声明1.
要求2004年6月11日前提交作业(系统实现类题目包括技术报告和程序代码),报告中务必留下作者的姓名、单位、联系电话和邮件地址.
提交方式:通过电子邮件发送到如下信箱:yzhou@nlpr.
ia.
ac.
cn或直接提交光盘;2.
选做系统实现类题目的同学,不允许不同同学选做同一个题目的同一项工作,选做技术综述类题目的同学,不允许两个或几个同学选择同一个题目;3.
鼓励充分使用网络资源和其它一切可以利用的资源(包括数据、软件和论文资料),但报告中必须明确标明资源来源,严禁侵害他人知识产权,否则,后果自负;4.
严禁抄袭他人工作,否则,本课程以零分记,并通报研究生院有关部门和学生所在单位.
昨天,遇到一个网友客户告知他的网站无法访问需要帮他检查到底是什么问题。这个同学的网站是我帮他搭建的,于是我先PING看到他的网站是不通的,开始以为是服务器是不是出现故障导致无法打开的。检查到他的服务器是有放在SugarHosts糖果主机商中,于是我登录他的糖果主机后台看到服务器是正常运行的。但是,我看到面板中的IP地址居然是和他网站解析的IP地址不同。看来官方是有更换域名。于是我就问 客服到底是什...
久久网云怎么样?久久网云好不好?久久网云是一家成立于2017年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,久久网云目前提供有美国免费主机、香港主机、韩国服务器、香港服务器、美国云服务器,香港荃湾CN2弹性云服务器。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经验,遍布亚太地区的海量节点为...
云如故是一家成立于2018年的国内企业IDC服务商,由山东云如故网络科技有限公司运营,IDC ICP ISP CDN VPN IRCS等证件齐全!合法运营销售,主要从事自营高防独立服务器、物理机、VPS、云服务器,虚拟主机等产品销售,适合高防稳定等需求的用户,可用于建站、游戏、商城、steam、APP、小程序、软件、资料存储等等各种个人及企业级用途。机房可封UDP 海外 支持策略定制 双层硬件(傲...
原代码为你推荐
西部妈妈网我爸妈在云南做非法集资了,钱肯定交了很多,我不恨她们。他们叫我明天去看,让我用心的看,,说是什么...百度关键词价格查询如何查到推广关键词的价钱?rawtoolsU盘显示是RAW格式怎么办丑福晋八阿哥胤禩有几个福晋 都叫啥名儿呀seo优化工具想找一个效果好的SEO优化软件使用,在网上找了几款不知道哪款好,想请大家帮忙出主意,用浙江哪款软件效果好porntimesexy time 本兮 MP3地址www.kanav001.com长虹V001手机小游戏下载的网址是什么www.zjs.com.cn请问宅急送客服电话号码是多少?www.7788k.comwww.6601txq.com.有没有这个网站菊爆盘请问网上百度贴吧里有些下载地址,他们就直接说菊爆盘,然后后面有字母和数字,比如dk几几几的,
美国域名 2017年黑色星期五 NetSpeeder 网页背景图片 windows2003iso 100m免费空间 炎黄盛世 合租空间 服务器维护方案 200g硬盘 183是联通还是移动 免费申请网站 hktv 支持外链的相册 上海联通宽带测速 789电视剧 无限流量 根服务器 免费外链相册 上海电信测速网站 更多