第**卷第*期中文信息学报Vol.
**,No.
*201*年*月JOURNALOFCHINESEINFORMATIONPROCESSING***.
,201*收稿收稿日期:2020-07-06;定稿日期:2020-07-06文章编号:1003-0077(2017)00-0000-00基于短语窗口的标注规则和识别算法研究刘广1,涂刚1,李政1,刘译键1(1.
华中科技大学计算机科学与技术学院,湖北武汉430074)通讯作者:涂刚,E-mail:tugang@hust.
edu.
cn摘要:目前,自然语言处理大多是借助分词结果进行语法依存分析,采用的主要是基于监督学习的深度端到端方法.
这种方法存在两个主要问题:首先是标注规则复杂,标注数据困难,而且工作量大;其次是算法不能识别语言成分的多粒度与多样性.
为了解决这两个问题,提出了基于短语窗口的标注规则,同时设计了相应的短语识别算法.
该标注规则以短语为最小单位,把句子分成7类可嵌套的短语类型,同时标示出短语之间的语法依存关系.
对应的算法,借鉴了图像领域识别目标区域的思想,可以发现句子中各种短语的起始与结束位置,实现了对嵌套短语及语法依存关系的同步识别.
实验的结果表明,该标注规则方便易用,没有二义性;算法比端到端算法更加符合语法的多粒度与多样性特征,在CPWD数据集上实验,比端到端方法准确性提高约1个点.
相应的方法应用到CCL2018比赛中,在中文隐喻情感分析任务中获得第一名的成绩.
关键词:自然语言处理;标注体系;短语识别;依存分析中图分类号:TP391文献标识码:AResearchonAnnotationRulesandRecognitionAlgorithmBasedonPhraseWindowLIUGuang1,TUGang1,LIZheng1andLIUYi-Jian1(1.
SchoolofComputerScienceandTechnology,NantongUniversity,WuhanHubei430074,China)Abstract:Atpresent,mostNaturalLanguageProcessingtechnologyisbasedontheresultsofWordSegmentationforDe-pendencyParsing,whichmainlyusesanend-to-endmethodbasedonsupervisedlearning.
Therearetwomainproblemswiththismethod:firstly,thelabelingrulesarecomplexandthedataistoodifficulttolabel,theworkloadofwhichislarge;sec-ondly,thealgorithmcannotrecognizethemulti-granularityanddiversityoflanguagecomponents.
Inordertosolvethesetwoproblems,weproposelabelingrulesbasedonphrasewindows,anddesignedcorrespondingphraserecognitionalgorithms.
Thelabelingruleusesphrasesastheminimumunit,dividessentencesinto7typesofnestablephrasetypes,andmarksthegrammaticaldependenciesbetweenphrases.
Thecorrespondingalgorithm,drawingontheideaofidentifyingthetargetareaintheimagefield,canfindthestartandendpositionsofvariousphrasesinthesentence,andrealizethesynchronousrecognitionofnestedphrasesandgrammaticaldependencies.
Theresultsoftheexperimentshowsthatthelabelingruleisconvenientandeasytouse,andthereisnoambiguity;thealgorithmismoregrammaticallymulti-granularanddiversethantheend-to-endalgorithm.
ExperimentsontheCPWDdatasetimprovetheaccuracyoftheend-to-endmethodbyabout1point.
Thecorre-spondingmethodwasappliedtotheCCL2018competition,andthefirstplaceintheChineseMetaphorSentimentAnalysisTask.
Keywords:NaturalLanguageProcessing;taggingsystem;phraseextraction;DependencyParsing2中文信息学报第2*卷0引言随着即时通信、微博、论坛、朋友圈等的快速流行,人们在网络上发布的文字信息也越来越多.
这些文字信息蕴含极大的价值,它们是分析社会整体及公众个体的观点、喜好、情绪、趋势等的入口.
快速准确地分析文字信息,是自然语言处理研究的目标.
目前,自然语言处理研究领域存在两个问题:首先是标注规则复杂.
比如哈工大等依存类别多达几十种,如表1所示;这种标注规则,语言学家可以轻松掌握,但是一般的标注人员,非常难以掌握.
即便掌握了,在标注数据的过程中,由于语言的多样性以及熟练程度等原因,会出现各种各样问题.
这就造成了标注数据慢而且错误较多,使得监督学习的模型预测准确性难以提高;其次是算法不能识别语言成分的多样性.
比如:"敌人的进攻"是个名词,但是"进攻"却是动词,传统深度端到端模型只会预测出一个类别,无法预测这种嵌套的多粒度与多类别.
表1依存标注类别举例施事关系,当事关系比较角色,属事角色并列关系,选择关系连词标记,的字标记.
.
.
.
.
.
.
.
.
.
.
.
成事关系,源事关系结局角色,方式角色转折关系,原因关系程度标记,根节点.
.
.
.
.
.
.
.
.
.
.
.
为了解决这两个问题,本文提出了基于短语窗口的标注规则,同时设计了相应的短语识别算法.
该标注规则以短语为最小单位,把句子分成动词短语、名词短语等7类可嵌套的短语类型,同时标示出短语之间的语法依存关系.
我们使用该规则,标注了各种类型的句子数据,把这个数据集称为中文短语窗口数据集(ChinesePhraseWindowDataset,CPWD).
对应的短语识别算法,借鉴了图像领域识别目标区域的FasterRCNN算法思想,可发现句子中各种短语的起始与结束位置,实现对嵌套短语及语法依存关系的同步识别,对应模型称为语法窗口模型(SyntaxWindowModel,SWM).
实验的结果表明,该标注规则方便易用,没有二义性;SWM模型比端到端模型更加适用于语法的多粒度与多样性特征,准确性有明显提高.
1相关工作语块分析体系最早是由Abney在1991年提出的语块描述体系[1],之后Kudoh等[2]提出了一种基于支持向量机的语块自动分析方法;同时,Shen等[3]提出了一种投票分类策略,将多种不同的数据表示和多种训练模型结合在一起,根据投票分类策略确定最终结果;此外,Mancev等[4]提出了一种处理支持向量机非凸结构的斜率损失的最小化问题的序列双向方法.
在汉语的语块分析方面,周强等[5,6]构造了基于规则的汉语基本块分析器,并设计了相应的基本块规则,给出了一整套解决方案,提高了基于规则的基本块分析器的性能;此外,李超等[7]应用最大熵模型和马尔科夫模型构建了一套汉语基本块的分布识别系统.
深度学习方法出现后,短语识别研究迎来了快速发展.
Chiu等[8]使用双向LSTM提取文本全局特征,同时,使用CNN提取单词的特征,进行名词短语实体的识别;Kuru等[9]使用StackedBidirectionalLSTMs提取文本全局特征进行名词短语实体识别,取得了较大进展;侯潇琪等[10]利用深度模型,将词的分布表征作为模型的输入特征维度,用于基本短语识别任务中,比使用传统的词特征表示方法提高明显;李国臣等[11]以字作*期作者,等:文章标题3为标注单元和输入特征,基于深层模型研究短语的识别问题,并将基于C&W和Word2Vec两种方法训练得到的字分布表征作为模型的特征参数,避免了对分词及词性标注结果的依赖;徐菁等[12]利用知识图谱,提出基于主题模型和语义分析的无监督的名词短语实体指称识别方法,同时具备短语边界检测和短语分类功能;程钟慧等[13]提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注数据自动提升模型性能,从非结构化大数据集中抽取有意义的名词短语.
语法依存最早是著名的法国语言学家特思尼耶尔提出,我国学者徐烈炯等[14]认为,语义角色是一个"句法—语义"接口概念,而不是单纯的语义概念;刘宇红[15]提出语义和语法双向互动的观点;孙道功[16]基于词汇义征和范畴义征的分析,研究了词汇与句法的衔接机制;亢世勇等[17]通过构建"现代汉语句法语义信息语料库",研究了义类不同的体词在施事(主语、宾语、状语)和受事(主语、宾语、状语)六个语块的分布特点.
这其中还包括哈工大、腾讯、百度、清华等团队的语法分类贡献.
在语法分析方面,McDonald等[18]提出了基于图模型的依存句法分析器MSTParser;Nivre等[19]提出了基于转移模型的依存句法分析器MaltParser;Ren等[20]对MaltParser依存句法分析器的Nivre算法进行了优化,有效的改进了在汉语中难以解决的长距离依存等问题;车万翔等[21]对MSTParser依存句法分析器进行了改进,使用了图模型中的高阶特征,提高了依存句法分析的精度;Chris等[22]在基于转移模型的依存句法分析框架上运用长短时记忆神经网络,将传统的栈、队列、转移动作序列看作3个LSTM细胞单元,将所有转移的历史均记录在LSTM中,改进了长距离依存问题;TaoJi等[23]开发了一种依赖树节点表示形式,可以捕获高阶信息,通过使用图神经网络(GNN),解析器可以在PTB上实现最佳的UAS和LAS;YuxuanWang等[24]提出了一种基于神经过渡的解析器,通过使用基于列表的弧跃迁过渡算法的一种变体,进行依赖图解析,获得了较好的效果;Fried等[25]通过强化学习来训练基于过渡的解析器,提出了将策略梯度训练应用于几个解析器的实验,包括基于RNN的解析器.
在语义分析方面,丁伟伟等[26]利用CRF在英文语料上能够利用论元之间的相互关系、提高标注准确率的特点,将其运用到中文命题库,使用CRF对中文语义组块分类,取得好的效果;王丽杰等[27]提出了基于图的自动汉语语义分析方法,使用哈工大构建的汉语语义依存树库完成了依存弧和语义关系的分析;王倩等[28]基于谓词和句义类型块,使用支持向量机的语义角色对句子的句义类型进行识别,也有一定的启发意义.
综上,各种方法存在两个主要问题:首先是标注规则复杂.
比如哈工大等依存关系多达几十种.
这就造成了标注数据慢而且错误较多,做监督学习的时候,模型预测准确性难以提高;其次是算法不能识别语言成分的多样性.
基于深度端到端的模型,无法对语言的多样性进行预测,无法预测嵌套多类别.
本文提出了基于短语窗口的标注规则,发布了短语窗口数据集CPWD,同时设计了相应的短语识别算法.
该标注规则以短语为最小单位,把句子分成动词短语、名词短语等7类可嵌套的短语类型,同时标示出短语之间的依存关系.
对应的算法,借鉴了图像领域识别目标区域的FasterRCNN算法思想,可以发现句子中各种短语的起始与结束位置,实现对嵌套短语及语法依存关系的同步识别,对应模型称为语法窗口模型SWM.
4中文信息学报第2*卷2短语标注规范为了实现句子的短语识别与语法依存分析,制定了一套完整的短语标注规范.
该短语标注规范不仅可以对多粒度、嵌套短语进行标注,而且可以反映短语之间的依存关系.
标注规则相对简单,容易学习,并大面积推广.
2.
1句子语法依存关系标注规范将句子中的短语分成:名词短语、动词短语、数量词短语、介词短语、连词短语、语气词、从句,总共7类基本类型.
句子由短语组成,7类基本短语类型通过树状结构组成句子,即语法依存关系.
图1句子语法树结构图通常,句子的树状结构由主、谓、宾关系组成,图1是句子语法树结构图.
a)句子成分树:句子"我爱祖国",按照句子语法可以分为主语"我"、谓语"爱"、宾语"祖国";b)句子原型树:把"我"、"爱"、"祖国"放到对应的主谓宾位置;c)短语类别树:"我"是名词短语,"爱"是动词短语,"祖国"是名词短语.
对于复杂的句子同样可以采用这种方法进行短语识别和语法依存的分析.
图2是复杂句子的语义单元划分过程.
为了方便介绍,我们使用"()"表示名词短语,"[]"表示动词短语,"{}"表示数量词短语,""表示介词短语,"##"表示连词短语,"@@"表示语气词短语,"/\"表示从句.
图2语义单元划分过程2.
2短语标注规范短语类别有名词短语"()"、动词短语"[]"、数量词短语"{}"、介词短语""、连词短语"##"、语气词短语"@@"、从句"/\".
标注允许嵌套结构的存在,每种短语类别的标注规则如下.
(1)连词短语:连词短语是用来连接词与词、词组与词组或句子与句子、表示某种逻辑关系的虚词.
连词短语可以表并列、承接、转折、因果、选择、假设、比较、让步等关系.
如:"但是"表转折,"因为""所以"表因果等.
在标注体系中连词短语一般无嵌套关系.
(2)语气词短语:语气词短语是表示语气的虚词,常用在句尾或句中停顿处表示种种语气.
如:"吗"、"吧"、"呢"等在词语、句子末,表示语气.
在标注体系中语气词短语一般无嵌套关系.
(3)名词短语:表示人或事物以及时间、方位等,在句子中主要充当主语、宾语、定语.
它包括:以名词为中心词的偏正短语(如:"伟大祖国","这些孩子");用名词构成的联合短语(如:"工人农民");复指短语(如:"首都北京");方位短语(如:"桌面上","大楼前面");"的"字短语(如:"打更*期作者,等:文章标题5的老汉")等.
某些名词短语的中心词也可以是动词、形容词,定语可以是代词、名词或其他名词短语.
(4)动词短语:动词短语代表动作,包括起修饰作用的状语与补语.
如:"马上开始了"包括状语"马上",中心动词"开始",补语"了".
(5)介词短语:又称为介宾短语,是介词和其它代词或名词或从句搭配形成的短语.
"在这次考试中"为介词+名词短语,标注为.
"被"、"把"字句.
如:,.
(6)数量词短语:数量短语,指由数词和量词组合构成的短语.
数量词和名词搭配,如:({一首}动听的曲子)作为状语,如:[{一蹦一跳}地走着]作为补语,如:[看了](他){一眼}(7)从句:为了标注一个完整的语义单元,需要使用从句结构体现短语间的层次关系.
兼语句标为从句.
如:"我命令他去外面",这里"他"既是前面的宾语,又是后面的主语,标注:(我)[命令]/(他)[去](外面)\.
连动句标为从句.
如:"我出去骑车打球","骑车"、"打球"为连动,标注为:(我)//[出去]\/[骑](车)\/[打](球)\\.
主语从句、宾语从句.
如:(他)[说]/(计算机)[正在改变](世界)\.
根据该规则,我们标注了中文短语窗口数据集CPWD,数据集包括45,000条从对话、新闻、法律、政策、小说中挑选的非文言文的中文句子.
为了方便模型设计,句子最大长度限制在50个字以内.
3算法短语标注方法中,一些标签会嵌套,所以不能采用传统的端到端深度模型.
为了适配新的短语标注方法,借鉴了图像领域FasterRCNN的算法思想,即找窗口的方法.
不同的是,FasterRCNN找目标区域窗口,本文的算法是找短语的位置窗口;FasterRCNN会找对应的图像锚点anchor和4个偏置值,我们的算法找的是短语的锚点和两个偏置值.
我们称这个算法对应的模型叫语法窗口模型(SyntaxWindowModel,SWM).
3.
1算法流程(1)数据标注.
例如:原句为"我爱祖国",标注后为"(我)[爱](祖国)".
(2)模型输入.
使用"我爱祖国"字向量作为输入.
(3)短语特征提取.
通过特征提取网络进行特征提取,可以使用传统模型进行特征提取.
(4)短语窗口定位.
特征提取结果,通过分类网络实现短语窗口定位.
例如:窗口有"我"、"爱","祖国"三个,分类网络的输出是窗口在原句中的开始与结束位置,比如:窗口"我"的输出是(1,1),代表在句子中的开始位置是1,结束位置是1.
(5)短语分类.
然后提取窗口对应的短语,通过分类网络识别出短语类别.
例如:"我"是名词短语,"爱"动词短语,"祖6中文信息学报第2*卷国"名词短语.
(6)得到结果.
将短语窗口定位结果与对应的短语分类结果综合,使用标注符号表示出来,得到结果.
例如:(我)[爱](祖国).
3.
2SWM模型介绍SWM模型主要包括字向量输入层、特征提取层、短语窗口定位层、短语窗口提取层、分类网络组成.
图3是短语识别算法模型的基本结构图.
图3SWM模型基本结构模型主要包括四个组成部分:①特征提取网络:通过特征提取层实现特征的抽取,提取出的特征将被用于后续短语窗口定位层和短语窗口提取.
特征提取可以使用LSTM或者BERT模型.
②短语窗口定位层:短语窗口定位层用于定位短语窗口.
③短语窗口提取层:收集输入的短语窗口位置proposal、偏置值以及特征提取结果.
④分类网络:使用输入的短语窗口位置,从句子中抽取对应的短语片段,对短语片段进行分类,同时会再次修正偏置值.
(1)短语窗口定位层短语窗口定位包括窗口穷举层、全连接层、判别和偏置层.
图4短语窗口定位网络示意图如图4.
该层类似FasterRCNN的定位锚点anchor,及推荐proposal的功能,可以从背景中定位锚点,也就是短语窗口,同时结合偏置值(x与y)修正短语窗口的位置,得到短语窗口的proposal.
a)窗口穷举层窗口穷举层用来生成候选窗口框,每个窗口由起始位置x和结束位置y组成的二元组决定,用(x,y)表示.
图5是窗口穷举示意图,其中"我"是第一个字,它的窗口起始位置是1,结束位置是1,表示成(1,1),同理,"我爱"对应(1,2).
图5窗口示意图采用所有的子窗口锚点anchor来生成候选窗口proposal.
句子总长度为N时,第一个字作为起始位置的窗口有N个,第二个字作为起始位置的窗口有N-1个…最后一个字作为起始位置对应的窗口数量有1个,所以总的窗口数量是N(N+1)/2,对应同样数量的锚点anchor.
*期作者,等:文章标题7b)背景和偏置层所有N(N+1)/2个子窗口的特征,经过全连接层后,输出是N(N+1)个分类及对应的N(N+1)个偏置值,如图6所示.
也就是说,每个子窗口特征,经过全连接层后,输出2个分类的one-hot值,用于确定哪些短语窗口anchor是短语proposal,以及x与y的偏置值x与y两个值,每个子窗口特征得到4个输出值.
图6窗口判别与偏置为了定位的窗口位置更加精确,增加两个个偏置值x与y,相当于一个回归准确性的过程.
图7是偏置示意图,红色窗口"爱祖"通过全连接层后,被识别为短语,而正确的短语是绿色窗口"爱",这就需要通过偏置值修正.
把原来的窗口坐标加上偏置值,原来的窗口(x,y)变为(x+x,y+y).
其中x表示的是窗口起始位置偏置值,y表示的是窗口结束位置偏置值.
图7偏置示意图偏置值计算举例:x=6,x=1,修正结果:x=7x=6,x=0,修正结果:x=6x=6,x=-1,修正结果:x=5…为了防止预测窗口proposal过多,规定当预测窗口坐标和真实短语窗口坐标偏差小于1时,窗口的偏置才是有效的.
图8是有效偏置示意图.
短语起始位置可以向左或右最多偏移一个字,终止位置也可以向左或右最多偏移一个字.
当窗口长度大于等于2时,规定最多有5种偏移情况(proposal),当窗口长度等于1时,最多只有3种偏移情况(proposal).
图8有效偏置示意图c)损失函数模型对应的损失函数,包括两个.
其一是分类(one-hot向量)的损失函数,即判断是否为短语窗口的判别损失函数.
采用的交叉熵损失函数.
式1是判别损失函数,其中M是短语类别数量;其二是回归偏置值x与y的损失函数,即短语窗口和真实窗口之间的误差,由于是多个值,所以采用的是均方根误差RMSE.
式2是偏置损失函数.
(1)(2)(2)分类网络分类网络利用已经获得的短语窗口proposal和偏置,通过全连接层与softmax层推算每个短语窗口具体属于哪个类别(如:介词短语,名词短语,数量词短语等),输出每个短语类别的概率向量,得到单一分类标签;同时再次利用回归偏置获得每个短语的位置偏移量,用于微调的短语窗口位置.
8中文信息学报第2*卷4实验4.
1数据集与评估标准实验数据集使用标注的中文短语窗口数据集CPWD,包括45,000条从对话、新闻、法律、政策、小说中挑选的中文句子.
其中文言文只占不到5%比例,多是一些成语与谚语组成的句子.
为了方便模型设计,句子最大长度限制在50个字以内.
传统端到端的结果统计,主要根据每个字预测得到标签的情况.
这样的统计方式存在偏差,不如按照短语统计准确,比如:"中华人民共和国"命名实体的标签是"BIIIIII"为正确,如果预测结果是"BIIIBII",那么存在一个标签错误.
按照传统方式统计,只算7个标签中出现了一次错误;按照短语方式统计,"BIIIIII"全对为正确,"BIIIBII"为错误,即有一个标签错误,整个短语的预测是错误的,这样更加准确合理.
4.
2实验环境实验采用Python语言实现,python版本为3.
6.
1.
使用的框架为TensorFlow,版本为1.
12.
0.
使用的电脑配置为内存:32G,处理器:IntelXeon(R)CPUE5-2623v3@3.
00GHz*8,显卡:TITANXp,操作系统类型:ubuntu14.
0464-bit.
4.
3实验分析首先,SWM在多种网络结构的情况下进行对比优化.
优化方法包括采用双层BiLSTM,采用BERT代替BiLSTM,使用CRF层,在BiLSTM层之前加入CNN层进行特征抽取,选取不同比例的反例.
结果如表2所示.
表2SWM优化过程对比AccF1前向传播时间1层BiLSTM88.
3586.
68652层BiLSTM88.
2487.
1380BERT88.
7988.
65106CNN+BiLSTM87.
4287.
39961:1正反例87.
0187.
63871:2正反例88.
1788.
3789从结果可以看出,最优的模型结构是:1:2正反例,BERT+CRF.
但是考虑到运行效率和资源占用情况,我们在做实验或者工程部署的时候,建议采用的特征层模型是:1:2正反例,2层BiLSTM.
(a)BERT(b)BiLSTM图9Loss收敛情况图Loss值收敛情况在BERT、BiLSTM两种最优模型之间进行比较,收敛情况如图9.
可以看到,BiLSTM收敛快些,BERT语言模型收敛慢些,而且一个epoch的训练时间也长一些.
4.
4对比实验结果*期作者,等:文章标题9SWM对比各种端到端算法.
由于各种端到端算法输出与标签形式有不同,所以将标签形式调整成在统一的方式下进行对比.
SWM模型输出标签比端到端多,附带有嵌套等信息,所以需要进行降维处理,之后与端到端模型进行对比.
降维后可以形成命名实体标签、依存标签,分别与BiLSTM、BERT等端到端算法进行对比.
表3实验对比结果命名实体F1依存分析F1BiLSTM88.
1286.
70BiLSTM+CRF89.
0687.
99BERT90.
8289.
20BERT+CRF90.
3289.
10CNN+CRF88.
4187.
89SWM(BiLSTM)90.
3189.
26SWM(BERT)91.
3790.
85可以看到SWM模型比传统端到端有优势.
这种优势的产生,我们分析是由于SWM更适合语言的嵌套特征,使得模型不用在多个嵌套的命名实体之间做多选一的抉择,降低了模型的困惑度,解耦了文字与标签一对一的限制.
5总结本文针对传统自然语言处理存在的问题进行改进.
包括两个方面的问题:标注方法过于复杂,对应的深度端到端算法无法解决语法多样性问题.
首先,定义了基于短语窗口的标注方法,然后,标注了中文短语窗口数据集CPWD,最后,给出了对应的语法窗口识别算法模型SWM.
新的标注规则以短语为最小单位,把句子分成7类可嵌套的短语类型,同时标示出短语之间的语法依存关系,易于实施.
SWM模型,借鉴了图像领域识别目标区域(FasterRCNN)的思想,可以发现句子中各种短语的起始与结束位置,实现了对短语及语法依存关系的同步识别,解决了嵌套短语问题.
实验的结果表明,该标注规则方便易用,没有二义性;SWM模型比端到端模型更加契合语法的多粒度与多样性特征,提高了准确性.
参考文献[1]AbneySP.
ParsingByChunks[M].
Principle-BasedPars-ing.
SpringerNetherlands,1991:257-278.
[2]KudohT,MatsumotoY.
ChunkingwithSupportVectorMachines.
SigNotes,2000,140(107):9-16.
[3]ShenH,SarkarA.
VotingBetweenMultipleDataRepre-sentationsforTextChunking[M].
AdvancesinArtificialIntdligence.
SpringerBerlinHeidelberg,2005:389-400.
[4]MancevD.
Asequentialdualmethodforthestructuredramplossminimization[J].
FactaUniversita-tis,Series;MathematicsandInformatics,2015,30(1):13-27.
[5]周强.
基于规则的汉语基本块自动分析器[C].
中国中文信息学会、新加坡中文与东方语言信息处理学会、武汉大学语言与信息研究中心.
中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集.
中国中文信息学会、新加坡中文与东方语言信息处理学会、武汉大学语言与信息研究中心:中国中文信息学会,2007:148-153.
[6]周强.
汉语基本块规则的自动学习和扩展进化.
清华大学学报:自然科学版,2008,48(01):88-91.
[7]李超,孙健,关毅,等.
基于最大備模型的汉语基本块分析技术研巧[R],CIPS-ParsEval-2009.
[8]ChiuJPC,NicholsE.
NamedEntityRecognitionwithBidirectionalLSTM-CNNs[J].
TransactionsoftheAsso-ciationforComputationalLinguis-tics,2016,4(2016):357-370[9]KuruO,CanOA,YuretD.
CharNER:Character-levelNamedEntityRecognition[C].
ICCL.
26thInternational10中文信息学报第2*卷Confer-enceonComputationalLinguistics.
AssociationforComputationalLinguistics,2016:911-921[10]侯潇琪,王瑞波,李济洪.
基于词的分布式实值表示的汉语基本块识别[J].
东北大学学报:自然科学版,2013,34(5):582-585.
[11]李国臣,党帅兵,王瑞波,李济洪.
基于字的分布表征的汉语基本块识别[J].
中文信息学报,2014,28(06):18-25+55.
[12]徐菁.
面向中文知识图谱的开放式文本信息抽取关键技术研究[D].
国防科技大学,2018.
[13]程钟慧,陈珂,陈刚,徐世泽,傅丁莉.
基于强化学习协同训练的命名实体识别方法[J].
软件工程,2020,23(01):7-11[14]徐烈炯.
题元理论与汉语配价问题.
当代语言学,1998,1998(3):1-21[15]刘宇红.
生成语法中词汇语义与句法的界面研究[J].
外语学刊,2011,2011(05):56-60.
[16]孙道功.
基于大规模语义知识库的"词汇—句法语义"接口研究[J].
语言文字应用,2016,2016(02):125-134.
[17]亢世勇,许小星,马永腾.
施事、受事句法实现的义类制约[J].
语文研究,2011,2011(04):36-40.
[18]McdonaldR,LermanK,PereiraF.
Multilingualdepend-encyanalysiswithatwo-stagediscriminativeparser[C].
TenthConfrenceonComputationalNaturalLanguageLearning.
AssociationforComputationalLinguistics,2006:216-220.
[19]NivieJ,HallJ,NilssonJ,etal.
LabeledPseu-do-ProjectiveDependencyParsingwithSupportVectorMachines[C].
TenthConferenceonComputationalNatu-ralLanguageLearning.
2006.
[20]RenH,JiD,WanJ,etal.
Parsingsyntacticandsemanticdependenciesformultiplelanguageswithapipelineap-proach[M].
2009.
[21]CheW,LiZ,LiY,etal.
Multilingualdependency-basedsyntacticandsemanticparsing[C].
ThirteenthConfer-enceonComputationalNaturalLanguageLearn-ing.
2009:49-54.
[22]DyerC,BallesterosM,LingW,etal.
Transition-BasedDependencyParsingwithStackLongShort-TermMemory[J].
Computerence,2015,37(2):321–332.
[23]TaoJi,YuanbinWu,ManLan.
Graph-basedDependencyParsingwithGraphNeuralNetworks.
Proceedingsofthe57thAnnualMeetingoftheAssociationforComputa-tionalLinguistics,Florence,Italy,July28-August2,2019,2019(1):2475-2485[24]YuxuanWang,WanxiangChen,JiangGuo,TingLiu.
ANeuralTransition-BasedApproachforSemanticDe-pendencyGraphParsing.
TheThirty-SecondAAAIConferenceonArtificialIntelligence.
AAAI2018,2018,2018(2018):5561-5568[25]DanielFried,DanKlein.
Policygradientasaproxyfordynamicoraclesinconstituencyparsing[J].
InProceed-ingsoftheACL,2018,2018(2018):469-476[26]丁伟伟,常宝宝.
基于语义组块分析的汉语语义角色标注.
[J].
中文信息学报,2009,23(5):53-61[27]王丽杰.
汉语语义依存分析研究[D].
哈尔滨:哈尔滨工业大学,2010.
[28]王倩,罗森林,韩磊等.
基于谓词及句义类型块的汉语句义类型识别[J].
中文信息学报,2014,28(2):8-16
PacificRack在本月发布了几款特价产品,其中最低款支持月付仅1.5美元,基于KVM架构,洛杉矶机房,PR-M系列。PacificRack简称PR,QN机房旗下站点,主要提供低价VPS主机产品,基于KVM架构,数据中心为自营洛杉矶机房,现在只有PR-M一个系列,分为了2个类别:常规(Elastic Compute Service)和多IP产品(Multi IP Server)。下面列出几款秒...
香港服务器多少钱一个月?香港服务器租用配置价格一个月多少,现在很多中小型企业在建站时都会租用香港服务器,租用香港服务器可以使网站访问更流畅、稳定性更好,安全性会更高等等。香港服务器的租用和其他地区的服务器租用配置元素都是一样的,那么为什么香港服务器那么受欢迎呢,香港云服务器最便宜价格多少钱一个月呢?阿里云轻量应用服务器最便宜的是1核1G峰值带宽30Mbps,24元/月,288元/年。不过我们一般选...
无忧云怎么样?无忧云值不值得购买?无忧云,无忧云是一家成立于2017年的老牌商家旗下的服务器销售品牌,现由深圳市云上无忧网络科技有限公司运营,是正规持证IDC/ISP/IRCS商家,主要销售国内、中国香港、国外服务器产品,线路有腾讯云国外线路、自营香港CN2线路等,都是中国大陆直连线路,非常适合免备案建站业务需求和各种负载较高的项目,同时国内服务器也有多个BGP以及高防节点。目前,四川雅安机房,4...
ubuntu14.04为你推荐
金评媒朱江汪涵在沈阳7进5朱江和巩贺PK完说了句什么啊?怎么查询商标想要知道一个商标是否被注册,在哪里查到的比较权威?杨紫别祝我生日快乐一个人过生日的伤感说说有什么lunwenjiancepaperfree论文检测怎样算合格陈嘉垣陈浩民、马德钟强吻女星陈嘉桓,求大家一个说法。www.kanav001.com翻译为日文: 主人,请你收养我一天吧. 带上罗马音标会更好wwwwww.baitu.com韩国片爱人.欲望的观看地址haole10.com空人电影网改网址了?www.10yyy.cn是空人电影网么杨丽晓博客明星的最新博文javlibrary.comImage Library Sell Photos Digital Photos Photo Sharing Photo Restoration Digital Photos Photo Albums
上海域名注册 域名商 securitycenter uk2 美国便宜货网站 godaddy优惠券 xen lamp配置 搜狗12306抢票助手 亚洲小于500m 云全民 微信收钱 100m空间 129邮箱 太原网通测速平台 idc查询 服务器是干什么用的 西安服务器托管 德隆中文网 新加坡空间 更多