特征分词工具

分词工具  时间:2021-03-24  阅读:()
14ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5【引文格式】叶辉,姬东鸿.
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].
中国中医药图书情报杂志,2016,40(5):14-17.
DOI:10.
3969/j.
issn.
2095-5707.
2016.
05.
004基于多特征条件随机场的《金匮要略》症状药物信息抽取研究叶辉1,姬东鸿21.
广州中医药大学,广东广州510016;2.
武汉大学,湖北武汉430007摘要:目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法.
方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注.
结果基于多特征CRF自动标注的结果准确率达到84.
5%,召回率达到70.
9%,F测度值达到77.
1%.
结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息.
关键词:条件随机场;《金匮要略》;症状药物信息抽取;中医古籍中图分类号:R222.
3文献标识码:A文章编号:2095-5707(2016)05-0014-04ResearchonSymptomandMedicineInformationAbstractionofTCMBookJinGuiYaoLueBasedonConditionalRandomFieldYEHui1,JIDong-hong2(1.
GuangzhouChineseMedicineUniversity,GuangzhouGuangdong510006,China;2.
WuhanUniversity,WuhanHubei430007,China)Abstract:ObjectiveTofindanefficientwaytoabstractsymptomsandmedicineinformationfromTCMbookJinGuiYaoLuethroughcombinationofnaturallanguageprocessingmethod.
MethodsTakingJinGuiYaoLueasanexampleandbyusingconditionalrandomfields(CRF),textswereprocessedaccordingtowords,andthenpartofspeechandkeyassignmentsbasedonTCMdiagnosismarkergroupweresetasauxiliaryfeatures.
Symptom-medicineBIOlabelsweresetasthetrainingfeaturestotrainthemodel.
Thenthismodelwasusedtoconductautomaticlabelingtotestedtexts.
ResultsTheaccuracyrateofautomaticlabelingbasedonmulti-featureCRFwas84.
5%,recallrate70.
9%,Fmeasurevalue77.
1%.
ConclusionThemulti-featuremodeltrainedthroughCRFcombinedwithpartofspeechandTCMdiagnosismarkergroupcansuccessfullyimproveabstractionentityinformationabilityfromancientTCMbooks.
ThemodelcanbeusedtoautomaticallyabstractsymptomandmedicineentityinformationfromancientTCMbooks.
Keywords:conditionalrandomfields(CRF);JinGuiYaoLue;symptomandmedicineinformationabstraction;ancientTCMbooks基金项目:2014广东省中医药局建设中医药强省科研课题(20141073);广东财政专项(2013170)第一作者:叶辉,讲师,研究方向为医学信息学.
E-mail:yehui@gzucm.
edu.
cn中国医学存在大量的医药病案和古籍,如《伤寒论》《金匮要略》等中医药经典.
后人通过阅读理解这些经典,能够学习名医的经典药方和治疗思路,甚至可以挖掘在古籍中的药物信息,通过现代技术的药物提纯提炼,找出治疗某种疾病的特效药2016年10月第40卷第5期中国中医药图书情报杂志15物.
但由于中医药术语一直缺乏标准,古籍中的古文又偏涩难懂,科研人员想要获取古籍中的症状和药物信息比较费时,因此研究利用计算机自然语言处理中的算法高效地自动识别古籍里的中医药治疗信息具有实际的应用价值.
目前,医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法[1],而基于机器学习的方法是主流.
例如基于隐马尔可夫模型、决策树、支持向量机、最大熵、随机条件场等方法等,这些方法把词性、词形等特征融入到机器学习模型中,利用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称.
2001年,条件随机场(conditionalrandomfields,CRF)由美国Lafferty等人提出[2],结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,该模型的特性表明它非常适用于医学领域的命名实体识别研究.
有鉴于此,本文采用CRF算法对中医古籍《金匮要略》的医学症状和药物实体识别进行研究.
1研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果.
CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题.
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别.
1.
1数据准备与分词CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具.
首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料.
利用CRF训练测试的步骤概括如图1.
图1基于多特征的条件随机场的中医症状-药物抽取步骤《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种.
由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的"之乎者也"不影响上下文医学表达的词都去掉.
分词处理使用中国科学院计算技术研究所开发的ICTCLAS2015分词工具,此版本比过往版本对中文分词处理更加完善.
但由于分词系统没有经过大量古文的自然语言方面的优化,所以分出来的词汇偏向以单字的形式出现比较多.
最后本文采用书中前1~22篇的文本清洗后的分词结果共15525词条作为实验数据集.
1.
2多特征选择术语识别中可以利用的特征有很多,根据不同的文本和识别任务可以引入不同的特征,如字符、拼音、词性、词边界、各类命名实体列表、引导信息和频次统计及语法依赖关系和句子倾向性等,不同的特征对术语识别有不同的影响[3].
同时,特征数的增加对抽取效果的改善有积极作用.
根据《金匮要略》的文本特征,本实验选用以下3个特征.
特征1:词性.
词性是中文文本处理中常用的一项特征,词性特征指当前字符的词性,本研究釆用ICTCLAS2015的二级标注对语料库的词条进行自动词性标注,如:"极寒伤经"被系统标注为《金匮要略》未加工语料数据清洗词性与标注语料特征生成模型训练生成命名实体识别结果评测分词与校正测试语料训练语料16ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5"极/d寒/a伤/v经/n",其中d、a、v、n分别代表该词词性为副词、形容词、动词、名词.
特征2:采用键值对模型的中医诊断标记集进行诊断标注.
王国龙等[4]发现,使用基于键值对模型的中医诊断标记集标注的中医古文在基于词汇联系的隐马尔可夫模型测试中得到比较好的结果,因此本文参考键值对模型的中医诊断标记集作为辅助特征引入到实验中.
其中剔去时机、属性、附加描述这几个标记,简化后的键值对模型的中医诊断标记如表1.
表1键值对模型的中医诊断标记集的标注情况标记符号标记名称标记解释K键中医名词V值K的动词或描述ZN中医名词中医专业诊断名词U其他非症状信息特征3:症状-药物类别标签.
该特征作为术语识别过程中的状态值特征.
中医症状一般包括主症、舌象及脉象、部位、部位表征描述等信息,药物包括方剂和治法.
本文通过总结中医对症状和药物的处理方式,形成表2的标记集.
在识别类别的基础上采用"BIO"法标记[5],其中B(beginning)表示术语的首字符,I(intermediate)表示术语的非首字符和结束字符,O(outside)表示非术语字符.
由于中医诊断中对于脉象比较关注,因此在症状-脉象中特别标签了症状-脉类和症状-脉象,以提取其中的脉诊知识.
另外对症状也进行了标签处理.
表2CRF基于症状-药物的类别标签标记含义1级表示符号2级表示符号举例症状-脉类ZHML-BZHML-I寸口脉症状-脉象ZHMX-BZHMX-I浮症状-其他ZH-BZH-I小便难症(病)名ZM-BZM-I太阳病治法ZF-BZF-I发汗方剂FJ-BFJ-I黄芪防风汤药物YW-BYW-I细辛其他OO者1.
3语料训练与测试应用CRF++要求事先指定一种功能模板.
本文根据《金匮要略》文本特点设定一个特征模板,该模板用于描述训练文本和测试文本中的特征,进而提取训练集中的特征参数来实现测试文本标签的计算.
模板文件中的每一行表示一个子模版,表达方式为:%X[row,col],一个子模板表示输入数据的一个Token.
本文设计将相邻位置的特征进行联合,有助于识别错分词或长距离词.
本实验1和2选择模板窗口的大小为前后两行[-2,+2].
实验2设计例子见表3.
表3CRF实验2设计例子词词性中医诊断标记症状-药物标签太阳nZNZM-B病nZNZM-I,wUO无vZNZH-B汗nZNZH-I而cUO小便vKZH-B反vVZH-I利用CRF++train训练工具,按照表3的训练集格式进行训练得出模型文件model,然后再利用CRF++test工具将该模型应用到测试集中去,最后得出带有症状-药物自动标签的测试集.
1.
4实验设计本文设计了2组实验,通过对照组与实验组的对比,测试采用不同特征的基于CRF的《金匮要略》症状-药物识别的性能及不同特征对性能的影响情况.
实验1是单一特征对照实验,仅选用词本身、症状-药物标记(参见表2)进行实验作为基准.
实验2选用词、词性、简化的中医诊断标记集(参见表1),症状-方剂-药物标记(参见表2)的多特征进行实验,然后对以上2组实验的结果用conlleval工具进行测评,分析多特征对实验识别效能的影响.
1.
5评价标准基于CRF的中医专业术语识别性能的评估采用3个指标:准确率(precision,P)、召回率(recall,R)和F测度值(F-Measure).
P指抽取的信息中正确抽取的比例;R指正确抽取的信息占应抽取信息的比例;F测度值即为正确率和召回率的调和平均值.
其中F测度值能比较合理地反映该信息抽取的有效程度.
2结果与分析实验组1为实验的基准,采用单一特征的CRF方法,得到抽取词组准确率P为72.
0%,召回率R为55.
3%,F测度值为62.
5%;而实验组2引入多特征,再采用CRF处理后,得到抽取词组准确率P为2016年10月第40卷第5期中国中医药图书情报杂志1784.
5%,召回率R为70.
9%,F测度值为77.
1%.
见表4.
单一特征进行分词和症状药物BIO标签训练的F测度值比较低,而运用了分词、词性、中医诊断简化标记和症状药物BIO多特征标签后,F测度值结果升高到77.
1%,说明引入该组合特征模型的识别效能较优.
可见对于中医古籍的实体信息抽取,采用诊断标记和语言学规则(如词性、分词等)相结合的多特征模型,可令CRF抽取信息效果提高.
表4CRF2个实验组结果分析实验组引入特征P/%R/%F/%实验1分词、症状-药物BIO标签72.
055.
362.
5实验2分词、词性、中医诊断简化标记、症状-药物BIO标签84.
570.
977.
13小结本文主要通过CRF工具对《金匮要略》进行症状-药物信息提取,首先经过分词处理语料,然后加入词性、中医诊断标记等多个标注特征对中医症状-药物BIO标签进行训练和测试,得到F测度值77.
1%,比只运用单一特征的CRF抽取的结果效率更高,可见利用本文提出的多特征模型的CRF提取方法对中医古籍的信息抽取有良好的效果.
通过对《金匮要略》等中医古籍的信息抽取研究,为将来建立中医药搜索引擎及新药物发掘等方面提供了一种可行的方法.
参考文献[1]马瑞民,马民艳.
基于CRFs的多策略生物医学命名实体识别[J].
齐齐哈尔大学学报,2011,27(1):39-42.
[2]LAFFERTYJD,MCCALLUMA,PEREIRAFCN.
ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//The18thInternationalConferenceonMachineLearning.
SanFrancisco:MorganKaufmannPublishersInc.
,2001:282-289.
[3]孟洪宇.
基于条件随机场的《伤寒论》中医术语自动识别研究[D].
北京:北京中医药大学,2014:33-34[4]王国龙,杜建强,郝竹林,等.
中医诊断古文的词性标注与特征重组[J].
计算机工程与设计,2015,36(3):836-841.
[5]魏尊强,舒红平,王亚强.
基于序列标注的中医症状名识别技术研究[J].
山东工业技术,2015(8):237-238.
(收稿日期:2016-06-08)(修回日期:2016-08-08;编辑:魏民)

hostyun评测香港原生IPVPS

hostyun新上了香港cloudie机房的香港原生IP的VPS,写的是默认接入200Mbps带宽(共享),基于KVM虚拟,纯SSD RAID10,三网直连,混合超售的CN2网络,商家对VPS的I/O有大致100MB/S的限制。由于是原生香港IP,所以这个VPS还是有一定的看头的,这里给大家弄个测评,数据仅供参考!9折优惠码:hostyun,循环优惠内存CPUSSD流量带宽价格购买1G1核10G3...

raksmart:全新cloud云服务器系列测评,告诉你raksmart新产品效果好不好

2021年6月底,raksmart开发出来的新产品“cloud-云服务器”正式上线对外售卖,当前只有美国硅谷机房(或许以后会有其他数据中心加入)可供选择。或许你会问raksmart云服务器怎么样啊、raksm云服务器好不好、网络速度快不好之类的废话(不实测的话),本着主机测评趟雷、大家受益的原则,先开一个给大家测评一下!官方网站:https://www.raksmart.com云服务器的说明:底层...

Hosteons - 限时洛杉矶/达拉斯/纽约 免费升级至10G带宽 低至年$21

Hosteons,一家海外主机商成立于2018年,在之前还没有介绍和接触这个主机商,今天是有在LEB上看到有官方发送的活动主要是针对LEB的用户提供的洛杉矶、达拉斯和纽约三个机房的方案,最低年付21美元,其特点主要在于可以从1G带宽升级至10G,而且是免费的,是不是很吸引人?本来这次活动是仅仅在LEB留言提交账单ID才可以,这个感觉有点麻烦。不过看到老龚同学有拿到识别优惠码,于是就一并来分享给有需...

分词工具为你推荐
站酷zcool站酷zcool字体下载后怎么安装到PS中固态硬盘是什么什么是固态硬盘?微信回应封杀钉钉微信发过来的钉钉链接打不开?lunwenjiancewritecheck论文检测准吗?lunwenjiance知网论文检测查重系统psbc.comwww.psbc.com怎样注册同ip网站同IP网站9个越来越多,为什么?javmoo.com找下载JAV软件格式的网站555sss.com不能在线播放了??5555566.com5566网址大全
jsp虚拟主机 vps安全设置 抗投诉vps主机 百度云100as vultr美国与日本 mach5 轻量 河南m值兑换 腾讯实名认证中心 免费网页空间 跟踪路由命令 便宜空间 阿里云免费邮箱 德讯 创速 广东服务器托管 开心online 架设代理服务器 免费网站加速 更多