谓词分词工具

分词工具  时间:2021-03-24  阅读:()
软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.
ac.
cnJournalofSoftware,2011,22(8):17251737[doi:10.
3724/SP.
J.
1001.
2011.
03885]http://www.
jos.
org.
cn中国科学院软件研究所版权所有.
Tel/Fax:+86-10-62562563中文名词性谓词语义角色标注李军辉1,2,周国栋1,2,朱巧明1,2,钱培德1,2+1(苏州大学计算机科学与技术学院,江苏苏州215006)2(江苏省计算机信息处理技术重点实验室,江苏苏州215006)SemanticRoleLabelinginChineseLanguageforNominalPredicatesLIJun-Hui1,2,ZHOUGuo-Dong1,2,ZHUQiao-Ming1,2,QIANPei-De1,2+1(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou215006,China)2(JiangsuProvincialKeyLaboratoryforComputerInformationProcessingTechnology,Suzhou215006,China)+Correspondingauthor:E-mail:pdqian@suda.
edu.
cnLiJH,ZhouGD,ZhuQM,QianPD.
SemanticrolelabelinginChineselanguagefornominalpredicates.
JournalofSoftware,2011,22(8):17251737.
http://www.
jos.
org.
cn/1000-9825/3885.
htmAbstract:Thispaperexploressemanticrolelabeling(SRL)intheChineselanguagefornominalpredicates.
InadditiontothewidelyadoptedfeaturesofverbalSRL,variousnominalpredicate-specificfeaturesarealsoexplored.
Moreover,thenominalSRLperformancehasbeenimprovedbyproperlyintegratingfeaturesthatwerederivedfromastate-of-the-artverbalSRLsystem.
Finally,thepaperexplainsindetailthenominalpredicaterecognition,whichisessentialinafullyautomaticnominalSRLsystem.
EvaluationsonChineseNomBankshowthatproperintegrationofaverbalSRLsystemsignificantlyimprovestheperformanceofanominalSRL.
ItalsoshowsthatthisnominalSRLsystemachievestheperformanceof72.
67inF1-measureongoldenparsetreesandgoldenpredicates,andoutperformsthestate-of-the-artnominalSRLsystemsintheChineselanguage;however,theperformancedropsto55.
14inF1-measureonautomaticparsetreesandautomaticpredicates.
Keywords:semanticrolelabeling;nominalpredicate-specificfeature;verbalSRLfeature;nominalpredicaterecognition摘要:研究了中文名词性谓词的语义角色标注(semanticrolelabeling,简称SRL).
在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.
此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.
在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.
67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.
14.
关键词:语义角色标注;名词性谓词相关特征;动词性语义角色标注特征;名词性谓词识别中图法分类号:TP391文献标识码:A基金项目:国家自然科学基金(90920004,60873150,60970056);江苏省自然科学基金(BK2008160)收稿时间:2009-05-13;修改时间:2009-10-14;定稿时间:2010-03-291726JournalofSoftware软件学报Vol.
22,No.
8,August2011作为自然语言处理的一项研究重点,语义分析能够将人类自然语言转化为计算机能够理解的形式化语言,从而实现人与计算机之间的相互理解.
语义角色标注(semanticrolelabeling,简称SRL)是一种浅层的语义分析,因具有任务明确、评测容易等特点而成为目前的研究热点.
给定一个句子,SRL的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等).
SRL标注的语义角色对回答5W问题(who,what,when,where,why)提供了强有力的支持,这使得其应用非常广泛,包括问答系统[1]、指代消解[2]、信息检索[3]和机器翻译[4]等领域.
根据谓词类别的不同,可以将现有的SRL分为动词性谓词SRL和名词性谓词SRL.
随着FrameNet[5],PropBank[6]语料库的发布,CoNLL-2004[7]和2005[8]评测极大地推动了基于动词性谓词的英文SRL的研究.
在相关研究中[913],研究者们主要围绕如何从浅层或深层句法树中挖掘出有效的特征[911]、将树核函数应用于SRL[12]以及全局优化系统性能[13]等关键问题展开了深入探索,并取得了一定的成功.
鉴于PropBank只针对PennTreeBank[14]中的动词性谓词,NomBank[15]语料库采用与PropBank一致的标注框架,进一步标注了PennTreeBank中的名词性谓词及其语义角色.
Jiang和Ng[16]首次以NomBank为实验语料,将基于动词性谓词的英文SRL方法移植于名词性谓词的英文SRL,并探索了大量与英文名词性谓词相关的特征.
相对而言,由于中文PropBank[17]和中文NomBank[18]发布较晚,相关中文SRL研究也较少,且主要属于跟进型研究.
Sun和Pradhan等人[19,20]相继探索了中文动词性和名词性谓词的语义角色标注,但其实验采用的都是作者手工标注的小规模语料.
Xue等人[2123]利用大规模语料库中文PropBank和中文NomBank展开了中文动词性和名词性谓词的SRL.
其中,Xue和Palmer[21]实现了中文动词性谓词SRL,在使用正确和自动句法树情况下,性能F1值分别取得了91.
3和61.
3.
Xue[22]进一步探索了中文名词性谓词SRL.
文献[22]还尝试了借助动词性谓词的标注实例来扩展名词性谓词SRL的训练集规模,以期望提高名词性谓词SRL性能.
但是,实验结果并未如愿,其原因在于动词性和名词性谓词标注实例中的特征值差异非常明显.
Xue[23]通过使用更佳性能的自动分析句法树和制定一些新的特征,进一步提高了动词性和名词性谓词的中文SRL性能.
Ding和Chang[24]讨论了基于层次的特征选择方法在动词性谓词的中文角色分类子任务中的应用,基于正确的句法树,角色分类准确率达到了94.
68%.
Chen等人[25]从语义学的角度讨论了浅层语义分析的发展历史和理论基础,比较了当前英语两大语义角色体系和汉语角色体系,并给出了浅层语义分析中统计模型的现有特征集的句法语义分类.
Che[26]将核方法应用于英文动词性谓词SRL,除了使用已有的核方法以外,还提出了多种新的核方法.
文献[26]还首次将基于核方法应用于中文动词性谓词SRL,得到了与英文相同的性能趋势.
除了以上描述的基于短语句法树的SRL以外,基于依存句法树的SRL也已成为目前研究的热点.
CoNLL-2008评测[27]包括英文的依存句法分析和SRL.
虽然此次评测的主要目标是促进依存句法分析和SRL的联合学习研究,但从提交的评测结果来看,联合学习系统取得的SRL性能仍低于基于Pipeline方式的SRL性能.
CoNLL-2009评测[28]在CoNLL-2008的基础上,从英文一门语言扩展为包括中英文在内的7门语言.
需要说明的是,为了更好地满足应用的需求,CoNLL-2008评测首次包含了谓词的自动识别,说明了谓词自动识别的重要性.
但是,该次评测主要针对基于依存句法树的英文名词性谓词自动识别,这导致其谓词自动识别方法并不适合于基于句法成分的句法树.
因此,探索基于句法成分句法树的中文名词性谓词自动识别显示非常有必要,意义十分明确.
本文的工作主要围绕中文名词性谓词的SRL展开,给定某棵句法树和其中的谓词,共分3个步骤进行:首先,根据语言学知识制定裁剪规则,过滤掉不大可能担当语义角色的组块;其次,使用一个二元分类器进行角色识别,即判断某组块单元是否担当语义角色;最后进行角色分类,即对第2步确定为语义角色的组块,进一步采用多元分类器标注其角色类别.
本文的内容包括:(1)根据角色与谓词之间的结构关系,制定了适合于名词性谓词SRL的特征集合;(2)利用动词性谓词SRL进一步提高了名词性谓词SRL性能;(3)探索了基于短语成分句法树的名词性谓词自动识别研究,构建了包含句法分析、谓词自动识别功能的全自动中文名词性谓词SRL系统.
在中文NomBank上的实验结果表明:基于正确句法树和正确谓词识别,名词性谓词的中文SRL性能F1值达到了72.
67,大大优于目前国内外同类系统;基于自动句法树和自动谓词识别,名词性谓词的中文SRL性能F1李军辉等:中文名词性谓词语义角色标注1727值为55.
14.
这说明名词性谓词的中文SRL仍具有非常大的挑战性,有待进一步探索研究.
1中文NomBank介绍中文NomBank继承了英文NomBank的标注框架,标注了中文TreeBank[29]中的名词性谓词及其语义角色,分为核心语义角色和附加语义角色.
其中,核心语义角色(coreargument)有Arg0~Arg5共6种.
Arg0通常表示动作的施事者,Arg1通常表示动作的受事者,Arg2~Arg5根据谓词的不同会有不同的语义含义.
其余的语义角色称为附加语义角色,使用ArgM表示.
附加语义角色通常含义明确,并不会随谓词的不同而不同,例如,ArgM-LOC表示事件发生的地点,ArgM-TMP表示事件发生的时间等等.
图1给出了中文NomBank中的两个标注实例,谓词的语义角色分别对应了句法树的某个组块单元.
例如,谓词"投资"的两个核心语义角色分别为"外商/Arg0"和"银行/Arg1";谓词"贷款"同样包含了两个核心语义角色,分别为"中国银行/Arg1"和"向外商投资银行/Arg0".
此外,它还包含了一个附加语义角色"人民币/ArgM-MNR",表示贷款的形式.
值得注意的是,谓词"贷款"与其Arg1角色"中国银行"之间必须存在某个动词来满足语法上的需要,这个动词"提供"被标记为"Sup",称为支持性动词(supportverb).
当且仅当某个动词与当前名词性谓词拥有1个或多个相同的角色成分时,该动词才称为当前名词性谓词的支持性动词[18].
例如,在图1中,因为组块NP(中国银行)和组块PP(向外商投资银行)同时担当名词性谓词"贷款"和动词"提供"的语义角色成分,因此,动词"提供"被标注为"贷款"的支持性动词.
Fig.
1Nominalpredicates"投资"and"贷款",andtheirsemanticarguments图1名词性谓词"投资"和"贷款"及其语义角色2中文名词性谓词语义角色标注如图1所示,根据担当语义角色的组块在句法树中与谓词之间的位置关系,可以将语义角色(包括核心角色和附属角色)分为两大类:(i)内部角色,是指那些与谓词共同位于某名词短语内部的角色,这些角色与谓词之间的路径不存在VP(动词短语)节点.
例如,图1中谓词"投资"的Arg0和Arg1角色、谓词"贷款"的ArgM-MNR角色均属于内部角色.
(ii)外部角色,是指那些与谓词之间路径存在VP节点的角色,通常存在一个支持性动词将外部角色与谓词相关联.
例如,图1中,谓词"贷款"的Arg1和Arg0角色均属于外部角色,外部角色与名词性谓词之间存在着某个支持性动词.
将语义角色划分为内部和外部角色的好处在于,内部角色和外部角色在句法树中与谓词的位置关系各具特点,这导致在进行角色识别和角色分类时,有效的上下文信息将会体现在不同的方面.
本节首先描述系统流程;接着列出在角色识别和角色分类中使用的传统特征(traditionalfeature);最后,针对内部和外部角色,进一步提出了与名词性谓词相关的特征(nominalpredicate-specificfeature).
2.
1系统流程给定某棵句法树及其中的名词性谓词,类似于文献[9,10,2123]等,本文共分3个步骤进行语义角色标注:首向外商投资银行提供40亿PNNNNNNVVNNNNArg0/Rel1Rel1Arg1/Rel1NPPPArg0/Rel2ArgM-MNR/Rel2Rel2NPCDQPNPVPVP人民币贷款.
NRNNPUNPArg1/Rel2IP中国银行Sup/Rel21728JournalofSoftware软件学报Vol.
22,No.
8,August2011先,根据语言学知识制定裁剪规则过滤掉不大可能担当语义角色的组块单元;其次,使用一个二类分类器进行角色识别,即判断某组块单元是否担当语义角色;最后进行角色分类,即对第2步确定为语义角色的组块,进一步采用多类分类器标注其角色类别.
步骤1.
角色剪枝.
在句法树中,仅有极少部分组块与目标谓词之间存在语义关系.
通过仔细分析标注语料可以发现,担当语义角色的组块与目标谓词之间的位置呈现某种规律性.
因此,根据语言学知识,参考Xue[22]制定的关于名词性谓词角色剪枝规则,我们分别为内部角色和外部角色制定不同的剪枝规则,过滤掉不大可能担当语义角色的组块.
内部角色剪枝.
根据如下3条规则找到内部角色候选组块集:所有目标谓词的兄弟组块皆为候选组块;如果组块CP或DNP为候选组块,那么它的儿子组块也均为候选组块;如果组块C的父节点也是目标谓词的祖先节点,并且组块C与目标谓词之间的句法路径仅包含1个或多个NP组块,那么C为候选组块;外部角色剪枝.
外部角色与名词性谓词之间存在某个支持性动词,并且外部角色同时还担当了支持性动词的某个语义成分.
例如,在图1中,"NP(中国银行)"和"PP(向外商投资银行)"同时为支持性动词"提供"和名词性谓词"贷款"的语义角色.
因此可以近似地认为,若组块集合M为支持性动词的语义角色候选组块,那么M也为相应名词性谓词的外部语义角色候选组块.
但是,在测试过程中支持性动词是未知的,我们可以首先根据名词性谓词在句法树中的位置找到其对应的中介动词(interveningverb),接着采用文献[21]定义的规则找到担当中介动词的语义角色的候选组块集合.
步骤2.
角色识别.
对每个目标谓词及担当其语义角色的候选组块集合,采用二元分类器(即NULL和Non-NULL两类)进一步过滤掉不大可能担当语义角色的组块.
特别地,为了能够更好地避免实际担当语义角色的组块在本过程被标记为非语义角色组块,类似于Pradhan等人[10]的做法,我们可以仅仅标记那些极有可能不担当语义成分的组块为非语义组块.
即,若某组块的NULL类别的概率值大于某阈值(本文设置为0.
90),则认为其不大可能担当语义角色;否则,按步骤3进行角色分类.
将角色识别的阈值设置为0.
90的好处在于,能够尽可能地避免实际担当语义角色的成分被错误地标记为Non-NULL类别,同时能够过滤掉那些不大可能担当语义角色的成分.
步骤3.
角色分类.
为每个担当语义角色的候选组块,采用多元分类器(包括非角色类,即NULL类)标注其最可能的语义角色类别.
2.
2传统特征Xue和Palmer[9]研究发现,由于角色识别和角色分类任务性质不一致,因此部分有利于角色识别的特征可能在角色分类任务中起相反的作用;反之亦然.
参照目前大多数中英文动词性谓词的SRL系统[16,21,22],我们也分别制定了角色识别和角色分类特征集作为本文的传统特征,见表1.
其中,第3列的值为在图1中,假设当前待分析组块为NP(中国银行)、名词性谓词为NN(贷款)时对应的特征值.
在表1定义的特征中,谓词类别特征b2[21]可以缓解谓词在训练集和测试集分布不平衡而导致的问题:某些谓词仅在训练集或测试集中出现,由于核心角色语义含义与谓词紧密相关,这加大了角色分类的难度.
Xue和Palmer[21]提出了中文动词类别概念,动词的类别由3个因素构成,分别是语义角色的个数、谓词语义框架个数和句法变换.
例如,动词"加快"、"加强"和"加深"等同属于某个动词类别.
详细的描述可参见文献[21].
本文采用中文宾州树库定义的组块类别体系.
其中,VP表示动词短语,NP表示名词短语,PP表示介词短语,IP表示子句,CP表示IP+"的";DNP表示NP+"的".
名词性谓词与中介动词之间的路径满足VVNP+>NN的形式.
其中,NP+表示1个或多个NP.
可以近似地将中介动词作为支持性动词的替代.
李军辉等:中文名词性谓词语义角色标注1729Table1Traditionalfeaturesforargumentidentificationandargumentclassification表1角色识别和角色分类的传统特征Traditionalfeaturesforargumentidentification:b1~b5,b11~b14b1Predicate:thepredicateitself贷款b2Predicateclass:theverbclassthatthepredicatebelongstoC4ab3Headword(b3H)anditspart-of-speech(POS)tag(b3P)银行,NNb4Phrasetype:thesyntacticcategoryoftheconstituentNPb5Path:thesyntacticpathfromtheconstituenttothepredicate(NPVP>VP>NP>VP>NN)Combinedfeatures(b11~b14):b1&b4;b1&b3H;b2&b4;b2&b3HTraditionalfeaturesforargumentclassification:besidesfeaturesb1~b5,b11~b14,theyalsoincludeb6~b7,b15b6Position:thepositionalrelathinshipoftheconstituentwiththepredicate.
"left"or"right"leftb7Thefirstword(b7F)andthelastword(b7L)oftheconstituent中国,银行Combinedfeatures(b15):b5&b62.
3名词性谓词相关特征第2.
2节定义的传统特征同样适合于基于动词性谓词的语义角色标注[21,23].
除了这些特征以外,本节根据名词性谓词与语义角色之间的特点,制定了一些新的适合名词性谓词SRL的特征集合.
2.
3.
1内部角色-谓词相关特征如前所述,内部角色与谓词共同位于某名词短语内部,在位置上较为邻近.
在中文NomBank上的统计表明,经过角色剪枝后,约40%的候选内部角色组块实际担当语义角色.
因此,一些关于内部角色组块与谓词之间更加细致的特征将更有利于此类角色的识别和分类.
为了更好地区别实际担当和不担当语义角色的组块,制定了特征集{ai1~ai7,ai11~ai12}.
特别地,为了突出当前待分析组块的兄弟组块信息的重要性,为每个兄弟组块得到其组块类别、中心词、路径和位置的组合值(特征ai6);同时,鉴于特征ai6的稀疏性,制定了特征ai7,见表2,其中第3列的值为在图1中,假设当前目标谓词为"NN(投资)"、待分析的组块为"NN(外商)",各特征对应的特征值.
Table2Nominalpredicate-specificfeaturesforinsidearguments表2内部角色-谓词相关候选特征ai1WhethertheconstituentisadjacenttothepredicateYesorNoYesai2Headword(ai2H)anditsPOS(ai2P)ofthepredicate'snearestrightsibling银行,NNai3WhetherthepredicatehasrightsiblingsYesorNoYesai4Compressedpathofb5:compressingsequencesofidenticallabelsintooneNNNNai5WhetherthepredicatehassiblingYesorNoYesai6Foreachsiblingoftheconstituent,combineb4&b3H&b5&b6银行&NN&NNNN&rightai7Foreachsiblingoftheconstituent,combineb4&b6NN&rightCombinedfeatures(ai11~ai12):bi1&ai3;ai4&b12.
3.
2外部角色-谓词相关特征基于英文和中文NomBank上的统计表明,约有20%和22%的语义角色与谓词之间存在着支持性动词.
这些角色所对应的组块通常与名词性谓词距离较远,并且这些组块通常也担当支持性动词的语义角色.
为了捕获这些信息,在判断组块与目标谓词之间的语义角色时,可以借助于支持性动词、支持性动词与组块之间的路径等信息.
同样,由于支持性动词性是未知的,我们使用中介动词替代支持性动词,并制定中介动词相关的特征集{ao1~ao4,ao11~ao14}(ao11和ao13在文献[20]也被使用),见表3,其中第3列的值为在图1中,假设当前目标谓词为"NN(贷款)"、待分析组块为"NP(中国银行)",各特征对应的特征值.
Table3Nominalpredicate-specificfeaturesforoutsidearguments表3外部角色-谓词相关候选特征ao1Interveningverb:theinterveningverbitself提供ao2Interveningverbclass:theverbclassthattheinterveningverbbelongstoC3bao3Interveningpath:thesyntacticpathfromtheconstituenttotheinterveningverbNPVP>VP>VVao4Interveningcompressedpath:compressingsequencesofidenticallabelsintooneNPVP>VVCombinedfeatures(ao11~ao14):ao1&ao3;ao1&ao4;ao2&ao3;ao2&ao41730JournalofSoftware软件学报Vol.
22,No.
8,August20112.
3.
3特征选择为了能够从以上定义的名词性谓词相关特征集中分别选择出有利于角色识别和角色分类任务的特征集,本文采取一种贪婪式的特征选择算法[16]:根据每个候选特征在开发集上对角色识别(或分类)任务的贡献度,每次选择取得贡献度最大的特征,算法的终止条件是,当从剩余候选特征集中添加任意特征时,都会在开发集上导致性能的下降.
具体的特征选择过程描述如下:(1)以{b1~b5,b11~b14}为角色识别的基本特征集合,执行特征选择算法,从{ai1~ai7,ai11~ai12,ao1~ao4,ao11~ao14}特征集中找到给角色识别带来更佳效果的特征集合;(2)固定由上述得到的最佳特征集合为角色识别特征集合,以{b1~b7;b11~b15}为角色分类的基本特征集合,执行特征选择算法,从{ai1~ai7,ai11~ai12,ao1~ao4,ao11~ao14}特征集中找到给角色分类带来更佳效果的特征集合.
3中文动词性谓词SRL在中文名词性谓词SRL中的应用鉴于中文NomBank与中文PropBank采用相同的标注体系,这就是说,某个词无论是作为动词性谓词还是名词性谓词使用,在手工标注其语义角色时都采用相同的角色框架.
例如,在谓词"贷款"的角色框架中,总是将借贷者标注为Arg0,而将放贷者标注为Arg1.
因此,借贷者和放贷者与"贷款"之间的语义关系并不会因为"贷款"是名词或动词而改变,如下所示:例句1.
[Arg1中国银行][Arg0向外商投资银行]提供[Rel贷款].
例句2.
[Arg0中国银行][Arg1向外商投资银行][Rel贷款].
其中,"贷款"在例句1和例句2中分别标注为名词性和动词性谓词.
于是,一种很自然的方法是,使用动词性谓词的标注实例添加来扩充名词性谓词SRL的训练实例.
但是,文献[22]的实验表明,此种方法并不能提高中文名词性谓词SRL性能.
其原因很可能是,尽管都是按照相同的特征模板从PropBank和NomBank标注语料中抽取实例,但在PropBank和NomBank上得到的特征值相差甚大.
最为明显的是,路径特征在语义角色标注中起着非常重要的作用,但语义角色成分与名词性谓词和动词性谓词之间的路径特征值截然不同.
这从例句1和例句2也可以看出,例句2对在例句1中理解谁为借贷者和放贷者起着反作用,因为"中国银行"在例句2中为Arg0,但在例句1中却标注为Arg1.
虽然第2.
3节已经定义了支持性动词相关的特征集,但人们不禁会问,支持性动词在名词性谓词SRL中是否能够发挥更大的作用呢比如,在图1中,动词"VV(提供)"与组块"NP(中国银行)"之间的语义关系是否有助于判断名词性谓词"NN(贷款)"与组块"NP(中国银行)"之间的语义关系为方便描述,记名词性谓词为NN,支持性动词为VV,外部角色组块为NP.
我们认为,从动词性谓词的SRL角度看,NN和NP都会是VV的语义成分,并且在位置上存在NPVVNN的关系.
例如,NP(银行)VV(提供)贷款(NN),在这个模式中,支持性动词起着某种语义角色传递性的作用.
如果NP为VV的核心角色,表示VV动作的施事者或受事者,则透过动词VV也可以推断出NP与NN的逻辑关系.
例如,在例句1中,"中国银行"为动词"提供"的实施者,通过动词"提供"可以推断出"中国银行"也为"提供贷款"的实施者,表示提供贷款的对象,即"贷款"的放贷者.
为了验证上述想法,在角色分类任务中我们添加了如表4所示的与动词性谓词SRL相关的特征集{ao5~ao8,ao21~ao27}(我们的动词性谓词SRL与文献[21]中描述的类似).
Table4FeaturesderivedfromaverbalSRLsystem表4从动词性谓词SRL系统获取的特征ao5WhethertheconstituentisanargumentoftheinterveningverbYesorNoao6Thesemanticroleoftheconstituentfortheinterveningverbao7Whetherthehighestnonephrase(NP)dominatedbythepredicateisanargumentoftheintervningverbYesorNoao8ThesemanticroleofthehighestNPdominatedbythepredicatefortheinterveningverbCombinedfeatures(ao21~ao27):ao1&ao5;ao1&ao6;ao1&ao5&b1;ao1&ao6&b1;ao1&ao7;ao1&ao8;ao5&ao74中文名词性谓词自动识别目前,基于动词性谓词的SRL研究很少提及谓词的自动识别,这主要是因为绝大多数的动词均可被认为是李军辉等:中文名词性谓词语义角色标注1731谓词.
例如,在中文PropBank中99%以上的动词均被标注为谓词.
但名词性谓词的识别却是个复杂而棘手的问题,这从如下统计值中可以看出:中文NomBank共包含了名词82982个(11386种),其中,曾作为名词性谓词出现过的有14525个(1421种),仅占17.
5%(12.
5%);出现两次或以上的名词有5743种,其中675种名词既作为谓词出现过,也作为非谓词出现过,占11.
8%.
因此,名词性谓词自动识别对语义角色标注在实际自然语言处理中的应用显得非常重要.
例如,CoNLL-2008[27]的评测明确规定了参赛者需自动发现句子中的谓词.
但与本文不同的是,CoNLL-2008主要针对在依存句法树中名词性谓词的识别,并且只针对英文,本文考虑中文名词性谓词的自动识别.
本文将中文名词性谓词识别看作一个二元分类(即Predicate和Non-Predicate两类)问题.
具体来说,首先将句子中所有词性标记为NN的词构成候选谓词集合,例如,在图1中,得到的候选谓词集合为{银行,外商,投资,银行,人民币,贷款};然后,根据语言规则(如规则1所示)筛选掉不太可能是谓词的候选谓词;最后,根据候选谓词所处的上下文信息,由二元分类器判断其是否为谓词.
规则1.
记候选谓词为w,若w在训练集中总是被标注为非谓词,那么w为非谓词.
规则1根据候选谓词在训练集中的分布情况确定其是否为非谓词,极大地缩小了候选谓词集合的规模.
例如,经过规则1的筛选,图1中的候选谓词集合变为{投资,贷款}.
然后,根据如下描述的局部和全局特征,采用二元分类器,确定其是否为谓词.
局部特征.
为方便描述,记POS-Item为候选谓词在句法树中对应的词性标记节点,Parent-Item和Grand-Item分别为POS-Item的父节点和祖父节点,InteVerb-Item为候选谓词的中介动词(如果存在).
例如,在图1中,候选谓词"贷款"对应的POS-Item,Parent-Item,Grand-Item分别为"(NN贷款)"、"(NP人民币贷款)"和"(NP40亿人民币贷款)",InteVerb-Item为"(VV提供)".
根据候选谓词在句法树中的位置,定义了如表5所示的特征(f1~f15),称其为局部特征.
Table5Localfeaturesfornominalpredicaterecognition表5用于名词性谓词识别的局部特征f1Thepredicatecandidateitself贷款f2Theleftword(f2W)anditsPOS(f2P)人民币NNf3Therightword(f3W)anditsPOS(f3P).
PUf4Thefirstcharacter(f4F)andthelastcharacter(f4L)ofthecandidate贷款f5ThediscriminalsubcategoryofParent-ItemNP→NN+NN*f6WhehterPOS-ItemistheheadchildofParent-ItemYesorNoYesf7ForeachleftsiblingsofPOS-Item,itsheadword人民币f8ForeachrightsiblingsofPOS-Item,itsheadwordNULLf9ThediscriminalsubcategoryofGrand-ItemNP→QP+NP*f10WhetherParent-ItemistheheadchildofGrand-ItemYesorNoYesf11WhehterthecandidateistheheadwordofGrand-ItemYesorNoYesf12TheheadwordofParent-Item'snearestleftsibling40亿f13TheheadwordofParent-Item'snearestrightsiblingNULLf14Theinterveningverbitself提供f15ThesyntacticpathfromInteVerb-ItemtoPOS-ItemVVNP>NP>NN以上定义的特征(f1~f15)可分为4组:第1组(f1~f4)源自候选谓词及其前后单词.
第2组特征(f5~f8)源自Parent-Item的内部结构,其中,特征f5使用的是区分式子类框架.
这是因为,在中文TreeBank中存在大量的扁平式基本名词短语,这些短语由多个NN构成.
假设基本短语NP由两个NN构成,那么Parent-Item的子类框架值将相同,但显然,这两个NN成为谓词的概率并不相同.
因此,在子类框架中标记出候选谓词的位置,称为区分式子类框架(例如,NP→NN*+NN和NP→NN+NN*表示两个不同的区分式子类框架).
第3组特征(f9~f13)源自Grand-Item的内部结构,但前提是Grand-Parent必须为NP短语.
这是因为,从对中文NomBank的观察发现,除了谓词的兄弟节点以外,还存在大量的角色位于Parent-Item所在的更高层的名词短语内,这些角色所对应的树节点通常与谓词是非相邻的.
特征f9~f13将有利于捕捉此类信息.
第4组特征(f14~f15)是关于中介动词InteVerb-Item的,在名词性谓词的SRL中,中介动词作为支持性动词的替代,有助于判断是否存在位于以谓词为中心词的1732JournalofSoftware软件学报Vol.
22,No.
8,August2011名词短语外的角色,因此我们认为,中介动词也有助于判断当前候选谓词是否为谓词.
全局特征(globalfeatures).
除了局部特征以外,还定义了如表6所示的全局特征(g1~g5),相关统计来自整个训练集.
特别是,g3~g5的取值可分4种情况:(1)Predicate表示候选谓词总是被标注为谓词.
(2)NOTPredicate表示总是未被标注为谓词.
(3)Predicate_NOTPredicate表示有时被标注为谓词,有时未被标注为谓词.
(4)NULL表示在训练集中未出现.
例如,g3值为NULL表示词组"人民币贷款"在训练集中并未出现过;g4值为Predicate表示词组"人民币贷款"一起出现时,"贷款"总是被标注为Predicate.
Table6Globalfeaturesfornominalpredicaterecognition表6用于名词性谓词识别的全局特征g1WhetherthecandidateisevertaggedasaverbinthetrainingdataYes/NoYesg2WhetherthecandidateisevertaggedaspredicateinthetrainingdataYes/NoYesg3Themostlikelylabelwhenthecandidateco-occurswithitsbothleftandrightwordsNULLg4Themostlikelylabelwhenthecandidateco-occurswithitsleftwordPredicateg5Themostlikelylabelwhenthecandidateco-occurswithitsrightwordPredicate5实验结果与分析本文的实验皆以中文NomBank作为实验数据,中文NomBank和中文PropBank分别标注了中文TreeBank5.
1(简称CTB5.
1)中的名词性谓词和动词性谓词及其语义角色.
我们首先报告基于正确句法树的中文名词性谓词SRL结果,这有助于了解本研究本身的挑战性;然后报告基于自动句法树的中文名词性谓词SRL结果,有助于了解中文名词谓词SRL与其他SRL(中文动词性谓词SRL和英文名词性谓词SRL)相比较的性能差别;最后报告包含名词性谓词自动识别功能的中文名词性谓词SRL性能,有助于了解在自然语言处理的实际应用中,中文名词性谓词SRL能够达到的性能值.
5.
1实验设置参照Xue[23]的实验数据划分,取中文NomBank中的648个文件(chtb_081.
fid-chtb_899.
fid)用作训练集,40个文件(chtb_041.
fid-chtb_080.
fid)用作开发集,72个文件(chtb_001.
fid-chtb_040.
fid和chtb_900.
fid-chtb_931.
fid)用作测试集.
其中,训练集、开发集和测试集所包含的名词性谓词数分别为8642,731和1124.
在本文的实验中,会多次使用到自动句法分析结果.
考虑到中文原始文本中词之间未被自然隔开,本文设计了两种形式的自动句法分析:(1)基于词(word-based)的自动句法分析:以正确的分词结果作为句法分析的输入.
(2)基于字(character-based)的自动句法分析:以自动的分词结果作为句法分析的输入.
本文中,自动分词(http://nlp.
suda.
edu.
cn/)采用基于最大熵方法,并使用位置标记策略,即对词头、词中和词尾的字分别标记为B,I和E,对单独成词的字标记为S;至于自动句法分析器,则选用Berkeleyparser(http://code.
google.
com/p/berkeleyparser/).
Berkeleyparser是由Berkeley自然语言处理小组开发的,在中文句法分析中的性能处于国际领先水平[30].
在实验中,分词工具和句法分析器均使用中文CTB5.
1数据,采用与语义角色标注实验划分一致的训练集和开发集.
其中在测集上,分词的性能F1值为96.
5,基于词的句法分析性能F1值为82.
1,基于字的句法分析性能F1值为85.
6.
在谓词识别和语义角色标注任务中,使用SVMLight工具包(http://dit.
unitn.
it/~moschitt)作为分类模型.
特别地,由于SVMLight分类器本质上是一个二元分类器,采用一对多方法(onevs.
others)将其重新包装为多元分类在评测基于词的句法分析性能时,词性标记节点未被包括在内;在评测基于字的句法分析性能时,词性标记节点被包括在内.
由于词性标注性能较高,因而导致基于词的句法分析性能F1值低于基于字的句法分析性能F1值.
李军辉等:中文名词性谓词语义角色标注1733器.
在训练时采用线性核,训练参数C值大小设置为0.
22.
由于在测试阶段SVMLight输出的是测试样例距超平面的距离,本实验采用Sigmoid函数将其转化为概率值.
在实验中,我们采用χ2测实验证性能的提高是否显著.
具体来说,记系统1正确识别的语义角色数为a,错误识别的语义角色数为b;系统2正确识别的角色数为c,错误识别的角色数为d.
使用公式(1)计算χ2统计值.
χ2值越大,说明两个系统的差距越显著.
通过查找χ2界值表,获得在自由度为1、p=0.
05时对应界值为3.
84.
故当χ2>3.
84时,两个系统有10.
05=95%的概率显著不同.
22()()adbcabcdabacbdcdχ=(1)5.
2基于正确句法树和正确谓词的名词性谓词SRL5.
2.
1特征选择使用第2.
3节描述的特征选择方法,从{ai1~ai7,ai11~ai12,ao1~ao4,ao11~ao14}候选特征集合中分别为角色识别和角色分类选取有效的特征.
基于开发集,特征{ao1,ai6,ai2P,ai5,ao2,ao12,ao14}先后被选入为角色识别特征集,而特征{ai7,ao1,ai1,ao2,ai5,ao4}先后被选入角色分类特征集.
表7给出了新选择加入的特征在在开发集上的语义角色标注贡献.
从表7可以看出,添加有效的特征后,内部和外部角色的标注性能得到了显著提高(p<0.
05).
Table7Effectofnominalpredicate-specificfeaturesonthedevelopmentdata表7名词性谓词相关特征在开发集上对名词性谓词SRL的影响FeatureArgumenttypeR(%)P(%)F1Insideargument68.
6575.
3771.
85Outsideargument42.
7063.
8351.
17TraditionalfeaturesAllarguments62.
8373.
5867.
78Insideargument71.
93(+3.
28)78.
44(+3.
07)75.
04(+3.
19)Outsideargument63.
35(+20.
65)64.
96(+1.
13)64.
14(+12.
97)+Selectednominalpredicate-specificfeaturesAllarguments69.
90(+7.
07)75.
41(+1.
83)72.
55(+4.
77)5.
2.
2中文动词性谓词SRL在中文名词性谓词SRL中的应用为了验证基于中文动词性谓词SRL的{ao5~ao8,a21~a27}特征集中每个特征的效果,我们在使用传统特征和经特征选择得到的名词性谓词相关特征(selectednominalpredicate-specificfeature)的基础上(对应表8中的baseline结果),分别将每个特征添加到角色分类特征集中,查看其对中文名词性谓词SRL性能的影响,表8列出了分别添加各特征后在测试集上的SRL性能.
从表8可以看出,只有特征ao6导致名词性谓词SRL性能的下降,其原因是,ao6的特征值与中介动词紧密相关.
表8还给出了使用特征集{ao5,ao7~ao8,a21~a27}后,在测试集上的语义角色标注性能.
从表8中可以看出,动词性谓词SRL相关特征能够显著提高名词性谓词SRL的性能(从70.
63提高到72.
67;p<0.
05).
并且,本文取得的名词性谓词SRL性能F1值优于文献[23]约3.
1.
5.
3基于自动句法树和正确谓词的名词性谓词SRL至此,句法树都假设是正确标注的.
本节把在正确句法树上取得的最佳语义角色标注系统移植于自动句法树.
由于在进行语义角色标注时是以句法树上的组块为标注单元,因此在使用自动句法树时,如果在句法树中找不到组块与某个角色所跨度的单词一致,那么该角色不可能被正确识别.
而且,如果某个谓词在分词过程中被错误切分,那么此谓词的所有角色也不可能被正确识别.
表8最下面两栏给出了在测试集上基于自动句法树的语义角色标注结果,其中,"基于词"和"基于字"栏分别表示基于词和基于字的的自动句法分析的SRL性能.
从表8中不难发现,在使用自动句法树情况下,语义角色标注性能F1值由72.
67降到60.
87,相差达11.
8.
其原因在于,约有7%的语义角色在句法树中找不到与之跨度一致的组块,因此这些角色无法识别;同时,还有6.
5%语义角色因为其对应的谓词未被正确词性标注为NN,因此也较难识别.
表8还列出了Xue[19]报告的基于自动句法分析树的名词性谓词SRL性能,可以看出,本文取得的性能F1值要优于文献[23]达2.
1.
1734JournalofSoftware软件学报Vol.
22,No.
8,August2011Table8EffectoffeaturesderivedfromverbalSRLonnominalSRLonthetestdata表8动词性谓词SRL特征在测试集上对名词性谓词SRL的影响ParseFeatureR(%)P(%)F1baseline67.
8673.
6370.
63+ao568.
1573.
6070.
77(+0.
14)+ao667.
6672.
8070.
14(0.
49)+ao768.
2075.
4171.
62(+0.
99)+ao868.
3075.
3971.
67(+1.
04)+ao2167.
9174.
4071.
00(+0.
37)+ao2267.
7674.
2070.
83(+0.
20)+ao2367.
9674.
6971.
16(+0.
53)+ao2468.
0174.
1870.
96(+0.
33)+ao2568.
0175.
0171.
39(+0.
76)+ao2668.
2075.
1271.
49(+0.
86)+ao2768.
4075.
7071.
87(+1.
24)+featuresderivedfromverbalSRL68.
4077.
5172.
67GoldenRef.
[23]66.
173.
469.
6+featuresderivedfromverbalSRL55.
9566.
7460.
87Word-BasedRef.
[23]53.
162.
957.
6+featuresderivedfromverbalSRL53.
5566.
6959.
40Character-BasedRef.
[23]52.
962.
357.
35.
4基于自动谓词识别的名词性谓词SRL在以上实验中,均假设谓词是正确标注的.
本节首先给出谓词自动识别性能,然后报告包含谓词自动识别的名词性谓词SRL性能.
5.
4.
1谓词自动识别值得注意的是,在使用自动句法分析树时,如果某个谓词在分词过程中未被正确切分,或者在词性标注过程中未被标注为名词NN,该谓词就不可能被正确识别.
换句话说,在最好情况下,系统仅能识别出那些被正确切分,并且词性被标注为NN的谓词.
表9给出了在正确和自动句法分析树下取得的谓词自动识别性能.
此外,为便于比较,我们定义了一条简单的名词性谓词识别规则作为基准系统,即某个候选谓词如果在训练集中以动词或名词性谓词出现过,则认为该候选谓词为名词性谓词.
基于正确句法树,该规则在测试集上的名词性谓词识别性能F1值(81.
04)远低于本文中提出的基于特征的名词性谓词识别方法取得的性能F1值(91.
64).
从表9中可以看出:(1)全局特征作为局部特征的补充,使得性能F1值提高了1.
42,说明了全局特征的有效性.
这是可以理解的,因为从某种程度上说,全局特征蕴含了许多局部特征所无法表达的全局信息.
(2)与基于正确句法树相比,基于自动句法树的名词性谓词识别性能要低许多.
(3)与基于正确分词的句法树相比,自动分词导致名词性谓词识别的召回率下降约1.
6%,而对精确率影响甚小.
其原因在于,约1.
6%的名词性谓词在分词过程中被错误切分,这些谓词在后续过程中无法被正确识别.
Table9Performanceofnominalpredicaterecognitiononthetestdata表9名词性谓词识别在测试集上的性能Parseg1~g5R(%)P(%)F1No91.
4689.
0090.
22GoldenYes92.
7090.
6191.
64Word-BasedYes86.
5782.
9584.
72Character-BasedYes84.
9682.
8383.
885.
4.
2基于自动谓词的名词性谓词SRL为便于性能比较,表10分别列出了基于正确和自动谓词识别情况下,在测试集上语义角色标注性能.
从表李军辉等:中文名词性谓词语义角色标注173510中可以看出,在使用基于字的句法分析和自动谓词识别情况下,中文名词性谓词SRL性能F1值为55.
14,说明中文名词性谓词SRL的研究仍具有非常大的挑战性,同时也说明中文句法分析还远远不够完善.
Table10PerformanceofSRLonthetestdata,withgolden/automaticparsetreesandgolden/automaticpredicates表10名词性谓词SRL在测试集上性能:基于正确/自动句法树和正确/自动谓词ParsePredicateR(%)P(%)F1Golden68.
4077.
5172.
67GoldenAutomatic65.
3674.
6969.
72Golden55.
9566.
7460.
87Word-BasedAutomatic53.
0659.
7056.
19Golden53.
5566.
6959.
40Character-BasedAutomatic51.
1059.
8755.
14表11进一步比较了在使用正确/自动句法树和正确/自动谓词的情况下,各类角色的识别性能.
其中,第2/6列为基于正确句法树和正确名词性谓词取得了的性能F1值;第3/7列为基于自动句法分析(包含自动分词)和自动谓词取得的性能F1;第4/8列为各类语义角色所占的比例.
从表11可以看出,自动句法分析树和自动谓词的使用在一定程度上导致了各类语义角色标注性能的下降;并且对于数量上占较大比例的语义角色,其性能下降更为明显,例如Arg0,Arg1,ArgM-MNR和ArgM-LOC等类别.
Table11Performanceonthetestdataforeachroletype表11各类语义角色的在测试集上性能Type/DescriptionGoldenAutomaticRatio(%)Type/DescriptionGoldenAutomaticRatio(%)Arg0/Agent71.
3255.
4428.
17ArgM-DIS/Discoursemarker72.
7365.
121.
22Arg1/Patient,recipient77.
7355.
3036.
26ArgM-EXT/Extent0.
000.
000.
05Arg2/Predicate-specific77.
1470.
593.
92ArgM-FRQ/Frequency0.
000.
000.
20Arg3/Predicate-specific0.
000.
000.
39ArgM-LOC/Locative70.
2355.
567.
06Arg4/Predicate-specific0.
000.
000.
10ArgM-MNR/Manner70.
2157.
2711.
86ArgM-ADV/Adverbial59.
2653.
123.
43ArgM-NEG/Negation75.
0066.
670.
20ArgM-CND/Condition0.
000.
000.
15ArgM-PRP/Purpose25.
0025.
000.
24ArgM-DGR/Degree50.
0028.
570.
59ArgM-TMP/Temporal68.
8242.
465.
34ArgM-DIR/Direction66.
6752.
940.
73ArgM-TPC/Topic50.
0050.
000.
10Overball72.
6755.
14100.
005.
5与已有系统的结果比较分析中文动词性和名词性谓词SRL比较.
在使用相同的训练、开发集和测试集上,中文名词性谓词的SRL性能F1值较中文动词性谓词SRL性能低约20(e.
g.
72.
67vs.
92.
0).
其主要原因为:(1)尽管采用相同的数据集,名词性谓词的标注实例数仍远小于动词性谓词.
例如,在中文TreeBank5.
1中,名词性谓词的标注实例数约为动词性谓词实例数的1/5.
(2)名词性谓词的角色识别更加困难.
根据文献[18]中描述的名词性谓词的角色标注原则,即使某个名词为动词的派生词,并不是该名词的所有修饰成分都将被标注为该名词的语义角色.
这使得判断某个修饰成分是否为该谓词的角色时,需要考虑它们之间的语义信息.
这可以从开发集中的统计数据看出,在动词性谓词的兄弟节点中,96%的节点被标注为角色;而在名词性谓词的兄弟节点中,仅有40%的节点被标注为角色.
这大大增加了名词性谓词的角色识别的难度.
(3)名词性谓词与其角色之间的结构更加灵活与复杂.
文献[14]研究表明,名词性谓词与角色之间的结构十分灵活,可以归纳为4类:(a)角色位于名词短语内;(b)名词性谓词为主语;(c)名词性谓词存在着支持性动词;(d)名词性谓词位于介词短语内.
每一类结构都有自己的特色,与动词性谓词SRL相比要复杂得多;(4)名词性谓词的识别远远要比动词性谓词的识别困难.
中英文名词性谓词SRL比较.
Jiang和Ng[16]探索了英文名词性谓词SRL,基于正确和自动句法树取得的性能F1值分别为72.
73和69.
14,两者相差3.
6.
可以看出,基于正确句法树时,尽管中文名词性谓词的语料规模小于英文,但取得的中文名词性谓词SRL与英文水平相当.
其主要原因在于,中文谓词一词多义的现象比较少,同时,像Arg2~Arg5这类比较难识别的核心语义角色在中文名词性谓词的角色占较小的比例.
不过基于自动句法树1736JournalofSoftware软件学报Vol.
22,No.
8,August2011时,中文名词性谓词的SRL性能F1值下降较明显,达13;而英文自动句法分析树对名词性谓词SRL性能F1值影响并不大,约下降3.
5.
其原因在于,英文自动句法分析性能F1值能够达到91~92,这保证了绝大多数的角色能够在句法树中找到与之跨度一致组块;另一方面,英文不存在分词问题,并且词性标注准确率能够达到97%以上,其中,名词性谓词的词性标注准确率也达到了96%以上.
6结束语本文讨论了中文名词性谓词的语义角色标注问题.
首先,在使用传统动词性谓词相关特征的基础上,进一步提出了名词性谓词相关的特征集;其次,本文探索了动词性谓词SRL相关特征在名词性谓词SRL中的应用;再次,本文深入比较了中文动/名词性谓词SRL和中英文名词性谓词SRL的性能及其缘由;最后,本文联合谓词自动识别和语义角色标注,开发了能够面向实际自然语言应用的全自动中文名词性谓词语义角色标注系统.
下一步工作将围绕动词性谓词和名词性谓词的联合语义角色标注展开研究.
我们相信,两者的互动能够大大促进语义角色标注性能的提高.
References:[1]NarayananS,HarabagiuS.
Questionansweringbasedonsemanticstructures.
In:Proc.
oftheColing2004.
Geneva:Coling,2004.
693701.
[doi:10.
3115/1220355.
1220455][2]KongF,ZhouGD,ZhuQM.
Employingthecenteringtheoryinpronounresolutionfromthesemanticperspective.
In:Proc.
oftheEMNLP2009.
Singapore,2009.
987996.
[3]SurdeanuM,HarabagiuS,WilliamsJ,AarsethP.
Usingpredicate-argumentstructuresforinformationextraction.
In:Proc.
oftheACL2003.
Sapporo,2003.
815.
[doi:10.
3115/1075096.
1075098][4]WuDK,FungP.
CansemanticrolelabelingimproveSMTIn:Proc.
oftheEAMT2009.
Barcelona,2009.
218225.
[5]BikerCF,FillmoreCJ,LoweJB.
TheBerkeleyFrameNetproject.
In:Proc.
oftheColing-ACL'98.
Montreal,1998.
8690.
[doi:10.
3115/980451.
980860][6]PalmerM,GildeaD,KingsburyP.
Thepropositionbank:Anannotatedcorpusofsemanticroles.
ComputationalLinguistics,2005,31(1):71106.
[7]CarrerasX,MàrquezL.
IntroductiontotheCoNLL-2004sharedtask:Semanticrolelabeling.
In:Proc.
oftheCoNLL2004.
2004.
Boston,2004.
8997.
[8]CarrerasX,MàrquezL.
IntroductiontotheCoNLL-2005sharedtask:Semanticrolelabeling.
In:Proc.
oftheCoNLL2005.
2005.
AnnArbor,2005.
152164.
[9]XueNW,PalmerM.
Calibratingfeaturesforsemanticrolelabeling.
In:Proc.
oftheEMNLP2004.
2004.
8894.
[10]PradhanS,HaciogluK,KruglerV,WardW,MartinJH,JurafskyD.
Supportvectorlearningforsemanticargumentclassification.
MachineLearning,2005,60:1139.
[doi:10.
1007/s10994-005-0912-2][11]LiuT,CheWX,LiS.
Semanticrolelabelingwithmaximumentropyclassifier.
JournalofSoftware,2007,18(3):565573(inChinesewithEnglishabstract).
http://www.
jos.
org.
cn/1000-9825/18/565.
htm[doi:10.
1360/jos180565][12]ZhangM,CheWX,AwAT,TanCL,ZhouGD,LiuT,LiS.
Agrammar-drivenconvolutiontreekernelforsemanticroleclassification.
In:Proc.
oftheACL2007.
2007.
Prague:2007.
200207.
[13]ToutanovaK,HaghighiA,ManningCD.
Jointlearningimprovessemanticrolelabeling.
In:Proc.
oftheACL2005.
AnnArbor:2005.
589596.
[doi:10.
3115/1219840.
1219913][14]MarcusMP,MarcinkiewiczMA,SantoriniB.
BuildingalargeannotatedcorpusofEnglish:ThePenntreebank.
ComputationalLinguistics,1993,19(2):313330.
[15]MeyersA,ReevesR,MacleodC,SzekelyR,ZielinskaV,YoungB,GrishmanR.
AnnotatingnounargumentstructureforNomBank.
In:Proc.
oftheLREC2004.
Lisbon,2004.
[16]JiangZP,NgHT.
SemanticrolelabelingofNomBank:Amaximumentropyapproach.
In:Proc.
oftheEMNLP2006.
Sydney,2006.
138145.
李军辉等:中文名词性谓词语义角色标注1737[17]XueNW,PalmerM.
AnnotatingthepropositionsinthePennChinesetreebank.
In:Proc.
ofthe2ndSIGHANWorkshoponChineseLanguageProcessing.
Sapporo,2003.
4754.
[doi:10.
3115/1119250.
1119257][18]XueNW.
Annotatingthepredicate-argumentstructureofChinesenominalizations.
In:Proc.
oftheLREC2006.
2006.
Genoa:2006.
13821387.
[19]SunHL,JurafskyD.
ShallowsemanticparsingofChinese.
In:Proc.
oftheNAACL2004.
Boston,2004.
249256.
[20]PradhanS,SunHL,WardW,MartinJH,JurafskyD.
ParsingargumentsofnominalizationsinEnglishandChinese.
In:Proc.
oftheNAACL-HIT2004.
Boston,2004.
141144.
[21]XueNW,PalmerM.
AutomaticsemanticrolelabelingforChineseverbs.
In:Proc.
oftheIJCAI2005.
Edinburgh,2005.
11601165.
[22]XueNW.
SemanticrolelabelingofnominalizedpredicatesinChinese.
In:Proc.
oftheHLT-NAACL2006.
NewYork,2006.
431438.
[doi:10.
3115/1220835.
1220890][23]XueNW.
LabelingChinesepredicateswithsemanticroles.
ComputationalLinguistics,2008,34(2):225255.
[doi:10.
1162/coli.
2008.
34.
2.
225][24]DingWW,ChangBB.
ImprovingChinesesemanticroleclassificationwithhierarchicalfeatureselectionstrategy.
In:Proc.
oftheEMNLP2008.
Honolulu,2008.
324333.
[25]ChenYD,WangT,ChenHW.
Shallowsemanticparsingresearch.
JournalofComputerResearchandDevelopment,2008,45(Suppl.
):321325(inChinesewithEnglishabstract).
[26]CheWX.
Kernel-Basedsemanticrolelabeling[Ph.
D.
Thesis].
Harbin:HarbinInstituteofTechnology,2008(inChinesewithEnglishabstract).
[27]SurdeanuM,JohanssonR,MeyersA,MàrquezL,NivreJ.
TheCoNLL-2008sharedtaskonjointparsingofsyntacticandsemanticdependencies.
In:Proc.
oftheCoNLL2008.
Manchester,2008.
159177.
[28]HajiJ,CiaramitaM,JohanssonR,KawaharaD,MartíMA,MàrquezL,MeyersA,NivreJ,PadóS,StepánekJ,StraňákP.
TheCoNLL-2009sharedtask:Syntacticandsemanticdependenciesinmultiplelanguages.
In:Proc.
oftheCoNLL2009:SharedTask.
Boulder,2009.
118.
[29]XueNW,XiaF,ChiouFD,PalmerM.
ThepennChinesetreebank:Phrasestructureannotationofalargecorpus.
NaturalLanguageEngineering,2005,11(2):207238.
[doi:10.
1017/S135132490400364X][30]PetrovS,KleinD.
Improvedinferenceforunlexicalizedparsing.
In:Proc.
oftheNAACL2007.
Rochester,2007.
404411.
附中文参考文献:[11]刘挺,车万翔,李生.
基于最大熵分类器的语义角色标注.
软件学报,2007,18(3):565573.
http://www.
jos.
org.
cn/1000-9825/18/565.
htm[doi:10.
1360/jos180565][25]陈耀东,王挺,陈火旺.
浅层语义分析研究.
计算机研究与发展,2008,45(Suppl.
):321325.
[26]车万翔.
基于核方法的语义角色标注研究[博士学位论文].
哈尔滨:哈尔滨工业大学,2008.
李军辉(1983-),男,江西崇仁人,博士,主要研究领域为自然语言处理.
朱巧明(1963-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为自然语言理解,中文信息处理,信息抽取.
周国栋(1967-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为自然语言处理,信息抽取,机器学习.
钱培德(1947-),男,教授,博士生导师,主要研究领域为中文信息处理,分布计算,操作系统.

HostSlim,双E5-2620v2/4x 1TB SATA大硬盘,荷兰服务器60美元月

hostslim美国独立日活动正在进行中,针对一款大硬盘荷兰专用服务器:双E5-2620v2/4x 1TB SATA硬盘,活动价60美元月。HostSlim荷兰服务器允许大人内容,不过只支持电汇、信用卡和比特币付款,商家支持7天内退款保证,有需要欧洲服务器的可以入手试试,记得注册的时候选择中国,这样不用交20%的税。hostslim怎么样?HostSlim是一家成立于2008年的荷兰托管服务器商,...

VoLLcloud(月付低至2.8刀)香港vps大带宽,三网直连

VoLLcloud LLC是一家成立于2020年12月互联网服务提供商企业,于2021年1月份投入云计算应用服务,为广大用户群体提供云服务平台,已经多个数据中心部署云计算中心,其中包括亚洲、美国、欧洲等地区,拥有自己的研发和技术服务团队。现七夕将至,VoLLcloud LLC 推出亚洲地区(香港)所有产品7折优惠,该产品为CMI线路,去程三网163,回程三网CMI线路,默认赠送 2G DDoS/C...

LightNode(7.71美元),免认证高质量香港CN2 GIA

LightNode是一家位于香港的VPS服务商.提供基于KVM虚拟化技术的VPS.在提供全球常见节点的同时,还具备东南亚地区、中国香港等边缘节点.满足开发者建站,游戏应用,外贸电商等应用场景的需求。新用户注册充值就送,最高可获得20美元的奖励金!成为LightNode的注册用户后,还可以获得属于自己的邀请链接。通过你的邀请链接带来的注册用户,你将直接获得该用户的消费的10%返佣,永久有效!平台目前...

分词工具为你推荐
安徽汽车网在安徽那个市的二手车最好?微信回应封杀钉钉微信违规操作被封了,广东GDP破10万亿在已披露的2017年GDP经济数据中,以下哪个省份GDP总量排名第一?www.hao360.cn主页设置为http://hao.360.cn/,但打开360浏览器先显示www.yes125.com后转换为www.2345.com,搜索注册表和关键字关键字和一般标识符的区别丑福晋历史上真正的八福晋是什么样子的?丑福晋谁有好看的言情小说介绍下336.com求一个游戏的网站 你懂得www.sesehu.comwww.121gao.com 是谁的网站啊抓站工具公司网站要备份,谁知道好用的网站抓取工具,能够抓取bbs论坛的。推荐一下,先谢过了!
重庆虚拟空间 域名劫持 cc域名 万网域名证书查询 服务器评测 百度云100as mach5 cloudstack 轻博 云图标 php免费空间 申请个人网页 云全民 有益网络 hostloc 世界测速 息壤代理 789电视剧 smtp虚拟服务器 河南移动梦网 更多