代词的中文

的中文  时间:2021-04-18  阅读:()
!
""#$%%&'(%)*+,-.
#"+/+.
&012345617-5859:;231:@==31:@==2C:4.
'N52C:4O@6P5QRJH'%DG'J&J(D*&D!
结合规则与语义的中文人称代词指代消解张文艳$!
李存华D!
仲兆满D!
王!
艺D!
李!
莉D$C中国矿业大学计算机科学与技术学院徐州DD$$$HDC淮海工学院计算机工程学院连云港DDD%%G摘!
要指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术在海量信息文本智能处理中具有重要的作用而人称代词在各种指代词集合中占有相当一部分比例本文采用规则与语义相结合的方法对中文人称代词进行指代消解在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项提出更精确的同义词距离计算方法利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算选择关联度最高的候选先行词作为最终的指代结果通过不同方法的对比实验和在真实语料数据集上的实验表明本文所提方法获得了较好的效果关键词指代消解人称代词规则候选先行词语义特征中图分类号O)($C$!
!
!
文献标志码9!
"#$%$#$&'$($)"*+,-"&"%!
.
-&$)$/$#)"&0*/#"&"+&)1-,.
!
"23-&0,-"&"%4$20&,-')0&5(+*$)SM54AT@4L54$UO@:M4161AL+MO@:M4161ALY2ZM12DD$$$H+M@6L2=@>8@:M4161AL81I2>A@\M@8M@3E314124=:54N58:M\L@=E@:+M128\@W@61E@>56A13326@=C]5=@>14724>5N@48567N@:M541E8@>CO135@488M@5='=1:17E@3=1456E314124=54>=@6@:8@>548@:@>@48=K5=@>N@8M1>7135456LZ=@6@:8@48\M\17O14AL[1\'#@8C+1NE53=54>@QE@3585=@8\@3@:14>2:8@>54>3@=268==M1\8M588M@E3@=@48@>N@8M1>5:M1KW@48=@N548"#,-"&"%>$#)"&0*>#"&"+&)代词类别人物#个事件#个比例#_单数复数单数复数单数复数第一人称代词$自己&$G%$$D*&JJ&JH$$&J&$$$D&C&D$$%CGH&*CH&第二人称代词))%$*&$G*C(G%CGJ第三人称代词&$%G$*%J(H&DC()GCH&特殊指代词$%H%%CD*%总数*D$$)($GDDDDDJHC$&$)CJH从表$看出!
在中文人称代词的分布中!
第一人称和第三人称占有较大的比例!
单数人称代词出现的次数要远远超过复数人称代词!
因此对第一人称和第三人称代词消解的正确与否将直接影响最后效果'通过对第一人称代词的分析!
发现第一人称和第二人称在语料中主要以两种形式出现"第一类以直接或间接引用的方式描述说话内容!
是需要消解的%第二类是在祈使句中出现!
是不需要消解的'选择人名和代词周围特定词性的词语作为人物关联词!
根据关联词判断人名和代词之间的指代关系!
词性包括"4Z!
4A!
54!
W>!
W4!
WA!
$$'.
,0-&符号4Z4A54W>W4WA的中文人称代词指代消解如下形式-""R#43$R#WR#\R#\R""R#3$R""R#\R#\R""R#43DR#WR#\R#\R""R#3DR""R#\R#\.
!
表达中若3$(3D为第一人称则/3$0`/43$0(/3D0`/43D0!
若3$(3D为第二人称则/3$0`/43D0(/3D0`/43$0'$)&性别一致性收集具有明显性别特征的词分别组成男女性别词库'如女士(小姐为女性特征词!
先生(兄弟为男性特征词!
其余无明确特征的词则标注为无性别类'候选先行词与人称代词性别一致则为$!
有一项无性别为%CG!
不一致为%'$&&单复数一致性词语的单复数分为单数(复数和无单复数三类'人称代词的单复数可直接判断!
候选先行词则根据-和(每个(大部分(许多.
等特征词判断!
无明显特征的标注为无单复数类'$G&距离属性经过对待消解项的分析统计!
发现汉语中指代词与先行词的距离大多在三句话之内!
设定候选先行词与指代词的距离上线为)!
过滤掉大于)的候选先行词':;A!
语义特征判断语义特征的判断主要是对待消解项中人称代词的关联词与候选先行词的关联词语义关系的判断!
包括关联词一致性(关联词相似性和关联词相关性'其中!
关联词一致性用代词关联词与候选先行词关联词的字符串匹配判断!
利用同义词词林和[1\#@8确定关联词相似性)$$*和相关性'首先根据同义词词林计算待消解项中关联词的相似度!
在小于设定阈值的情况下再进一步计算关联词在[1\#@8中的相关度'对知网中未收录的词语从同义词词林中找出近义词!
利用近义词进行相关度计算'$C&C$!
语义相似度计算+同义词词林,是梅家驹等人于$(J)年编纂而成!
后来由哈尔滨工业大学信息检索实验室进一步扩展成为了一部具有汉语大词表的+哈工大信息检索研究室同义词词林扩展版,'词林中收录词语近*万条!
是一部同义类词典!
词典采用层级体系!
具备G层结构!
存储在同义词词林中的词语都采用J位标记法!
具体编码格式如表)所示'表@!
词语编码表=03;@!
1"#5'"5-&,03*$编码位$D)&GH*J符号举例-5$G]%D`##符号性质大类中类小类词群原子词群级别第一级第二级第三级第四级第五级词林级别越高词义越详细!
第G级词群中很多只有一个词语并且不可再分'若两个词语有相同的前三级编码!
其相似程度已非常地接近!
但是本文通过研究发现并非所有处于相同三级的词语都具有很高的相似性!
这与两词语所在的第四级的个数和编码距离有关'统计发现第四类的编码最大范围为+!
!
个数为$%!
当两词语的编码距离在&以内时!
词语的相似度较高!
若超过则需要进一步的相似计算'相似度与距离成反比!
用距离评测词语间的相似关系)$D*'给定两词+!
4!
其语义距离计算方法为-%D9%$`%$殖民9>%D.
%$$$DFH%C%G&*G唐人9>%D-%$`$$DF*%CG*(D$C&CD!
语义相关度计算知网$[1\4@8&是一个以汉语和英语词语所代表的概念为描述对象!
揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库'影响语义相关度计算的因素有"词语上下位关系所体现的相似度(横向关系所体现的相关度'采用李生琦)$&*的语义相关度计算方法"相关度`相似度$$权值$&R关联度$$权值D&R实力影响因素$$权值)&!
其中第三项的值为%'$$&词语相似度计算+知网,中的所有义原根据上下位关系构成了一个树状义原层次结构!
利用距离计算相似度)$)*'假设两个义原在层次体系中的路径长度为0!
定义两个义原的语义距离为""的中文人称代词指代消解%(!
%*!
%G!
F$!
%J!
%(!
%G5'义原关联度计算公式为^@6@$1$!
1D&5'9.
#@QE$1$&=.
@"$H&式中"@QE$1$&和@QE$1D&分别为义原1$和1D解释义原集合%=.
!
=为义原1$和1D解释义原个数'概念;$和;D的关联度近似为两概念的义原关联度最大值!
即^@6@$;$!
;D&5N5Q.
5$!
2!
%3@6@$9.
!
9^@6@$;.
!
;=K23A!
9!
V"9"9==1:1:2N@48545EM1353@=1628A@'K5=@>5EE315:M71324=2E@3W+M+M@NK@>>31:@==14@48326@=)0*C+1NE285831:@==@:="V4!
D%%D"D**')%JC)(*!
王厚峰C指代消解的基本方法和实现技术)0*C中文信息学报!
D%%D!
$H$H&"('$*CT54A[127@4AC"23W@L"+1NE2858@6=54>8@:M4161A的中文人称代词指代消解31:@==的中文人称代词的指代消解)0*C中文信息学报!
D%%G!
$($&&"D&')%CUg==@N548K5=@>14[1\4@8)0*C9EE6的中文相似句子检索)0*C高技术通讯!
D%%&!
$&$*&"$G'$(C+M@T54Q14@>713:1NE2814[1\4@8=@N548A@)0*C0123456178M@+MO@:M4\13>=14[1\#@8)0*C012345617+1NE28@39EE6@@40!
@856C9N1>@6'8M@13@8@3=854>的中文人称代词指代消解

百星数据(60元/月,600元/年)日本/韩国/香港cn2 gia云服务器,2核2G/40G/5M带宽

百星数据(baixidc),2012年开始运作至今,主要提供境外自营云服务器和独立服务器出租业务,根据网络线路的不同划分为:美国cera 9929、美国cn2 gia、香港cn2 gia、韩国cn2 gia、日本cn2 gia等云服务器及物理服务器业务。目前,百星数据 推出的日本、韩国、香港cn2 gia云服务器,2核2G/40G/5M带宽低至60元/月,600元/年。百星数据优惠码:优惠码:30...

香港服务器租用多少钱一个月?影响香港服务器租用价格因素

香港服务器租用多少钱一个月?香港服务器受到很多朋友的青睐,其中免备案成为其特色之一。很多用户想了解香港云服务器价格多少钱,也有同行询问香港服务器的租赁价格,一些实际用户想要了解香港服务器的市场。虽然价格是关注的焦点,但价格并不是香港服务器的全部选择。今天小编介绍了一些影响香港服务器租赁价格的因素,以及在香港租一个月的服务器要花多少钱。影响香港服务器租赁价格的因素:1.香港机房选择香港机房相当于选择...

企鹅小屋:垃圾服务商有跑路风险,站长注意转移备份数据!

企鹅小屋:垃圾服务商有跑路风险!企鹅不允许你二次工单的,二次提交工单直接关服务器,再严重就封号,意思是你提交工单要小心,别因为提交工单被干了账号!前段时间,就有站长说企鹅小屋要跑路了,站长不太相信,本站平台已经为企鹅小屋推荐了几千元的业绩,CPS返利达182.67CNY。然后,站长通过企鹅小屋后台申请提现,提现申请至今已经有20几天,企鹅小屋也没有转账。然后,搞笑的一幕出现了:平台账号登录不上提示...

的中文为你推荐
队列routemediawikimediawiki的乱码问题中国企业在线一般都在哪里找企业信息啊?重庆网站制作重庆网站制作哪家好,重庆做网站制作的公司有谁比较了解的,应该去哪里做好些?设计eset北京大学cuteftp解析cuteftp滴滴估值500亿滴滴出行股权项目投资怎么投 100w怎么可以投资不三友网网测是什么意思?curl扩展如何增加mysqli扩展
个人注册域名 日本vps 中国万网虚拟主机 流媒体服务器 evssl 云鼎网络 免费网站申请 dux 宁波服务器 域名转接 徐正曦 南通服务器 服务器监测 上海服务器 超级服务器 web服务器是什么 上海电信测速网站 备案空间 阿里云邮箱登陆地址 黑科云 更多