证据ubuntu10.04

ubuntu10.04 时间:2021-03-29 阅读:()

第41卷第4期自动化学报Vol.
41,No.
42015年4月ACTAAUTOMATICASINICAApril,2015实体异构性下证据链融合推理的多属性群决策沈江1余海燕1徐曼2摘要针对多属性群决策中可解释性证据融合推理的实体异构性问题,给出了一个实体异构性下证据链融合推理的多属性群决策方法.
基于证据推理理论,引入证据链关联的概念,从多数据表提供的数据矩阵中获取可区分的近邻证据集,推导了各数据表的相似度矩阵,并构建半正定矩阵的二次优化模型,共享群决策专家的经验知识.
使用Dempster正交规则,论证了异构实体之间可解释性推理中可信度融合的合理性,并使用证据融合规则集成各个数据表的近邻证据中获得的可信度,验证了调和多源异构数据中不一致信息的有效性.
通过具有实体异构性的心脏病多决策数据诊断实例说明了方法的可行性与合理性.
关键词实体异构性,证据链关联,相似度矩阵,融合推理,群体智慧引用格式沈江,余海燕,徐曼.
实体异构性下证据链融合推理的多属性群决策.
自动化学报,2015,41(4):832842DOI10.
16383/j.
aas.
2015.
c140650HeterogeneousEvidenceChainsBasedFusionReasoningforMulti-attributeGroupDecisionMakingSHENJiang1YUHai-Yan1XUMan2AbstractInmulti-attributegroupdecisionmaking,theheterogeneityofentitiescausesalotdicultiesfortheinter-pretableevidencefusionreasoningprocess,thusanovelheterogeneousevidentialchainsbasedfusionreasoning(Hefur)methodisproposedformulti-attributegroupdecisionmaking.
Basedonthetheoryofevidentialreasoning,theconceptofevidentialchainassociationisintroducedtoobtainthenearestneighborsetofdistinctevidencesfromthedatamatrixofmultipledecisiontables.
Similaritymatricesarederivedfromdatatables,andpositivesemi-denitematrixquadraticoptimizationmodelisbuilttoshare,sharingtheexperienceknowledgeofthegroupdecision-makingexperts.
UsingtheDempster'squadraturerule,therationalityofthebeliefintegratingisveriedintheinterpretablereasoningprocesswithheterogeneousentities,andthecombinedbeliefisobtainedfromnearestneighborevidencesforeachdatatableusingtheevidencefusionrules.
Moreover,thevalidityisveriedfordealingwiththeharmonicinformationinconsistenceofthemulti-heterogeneousdatasources.
Numericalexperimentsontheheartdiseasediagnosiswithentityheterogeneityillustratethefeasibilityandrationalityoftheproposedmethod.
KeywordsEntityheterogeneity,evidentialchainassociation,similaritymatrix,fusionreasoning,wisdomofcrowdsCitationShenJiang,YuHai-Yan,XuMan.
Heterogeneousevidencechainsbasedfusionreasoningformulti-attributegroupdecisionmaking.
ActaAutomaticaSinica,2015,41(4):832842数据异构性是影响多属性群决策的可解释性推理性能的关键,广泛存在于工程实践和管理中.
例如,同一组织机构的不同部门之间,不同的组织机构或合作伙伴之间,共享和交换各自收集、存储的异收稿日期2014-09-09录用日期2014-12-12ManuscriptreceivedSeptember9,2014;acceptedDecember12,2014国家自然科学基金(71171143,71201087,71271122),天津市科技支撑计划重点项目(13ZCZDSF01900),中央高校基本科研业务费专项资金资助项目(NKZXB1458)资助SupportedbyNationalNaturalScienceFoundationofChina(71171143,71201087,71271122),KeyProjectofScienceandTechnologySupportingPrograminTianjin(13ZCZDSF01900),andFundamentalResearchFundsfortheCentralUniversities(NKZXB1458)本文责任编委王红卫RecommendedbyAssociateEditorWANGHong-Wei1.
天津大学管理与经济学部天津3000722.
南开大学工业工程系天津3004571.
CollegeofManagementandEconomics,TianjinUniver-sity,Tianjin3000722.
DepartmentofIndustrialEngineering,NankaiUniversity,Tianjin300457构数据,特别是企业兼并重组后,需要进行数据集成或信息融合.
又如,在医疗决策中,美国麻省理工学院(MassachusettsInstituteofTechnology,MIT)等基于Web的复杂生理信号和生物医学信号研究资源平台,提供多参数重症监护室的临床决策数据库[1],各个决策数据中异构性数据表分享了大量专家的经验知识.
这些数据源自不同的关系数据库、不同水平的专家经验知识、多传感器感知数据集等,数据实体因不同的特征属性和关系而具有异构性(又称异质性).
目前数据异构性问题的研究已经成为多属性群决策分析领域中的热点[23].
随着多传感器感知信息积累,大数据的分块存储和处理,以及新出现的案例和决策规则知识日益增长,决策者所面临异构性数据处理工作日趋复杂,大多数传统的异构数据推理方法假设输入的数据集从单个数据表中获得,没有考虑数据的实体异构性问题,而实际决策时往往需要从多个关系数据库获4期沈江等:实体异构性下证据链融合推理的多属性群决策833取推理的相关知识,并且一个实体在数据库中可能会因首次出现或完全匹配的结果不存在[4],而依据单个数据源推理的类别结果未考虑到从不同数据集中推理收集的多种证据的群体智慧[5].
实际需要根据多个相似实体之间的共享信息积累证据进行决策.
与将单个数据集作为决策信息源的推理问题相比,对多数据表中异构实体数据推理问题更加复杂.
首先,每个信息源提供的决策数据表可靠性、证据参考价值不同,这些数据集中的异构性实体对查询案例的关联作用也不同,需要在推理结果中体现各个关联信息源的可信度;其次,多决策数据表特别是大数据分块推理[67]中,需要构建一个异构数据源的融合推理方法,按照一定的融合规则综合决策推论的输出,解决各信息表对推理结果存在的不一致性,使得其性能优于依据大多数单数据表的推理结果.
因此,研究多源信息异构性实体决策信息中的融合推理问题具有挑战性和实际价值.
针对多属性群决策中异构性数据融合推理,本文所关注的两个要点为:1)依据从关系型数据库的异构数据中提取的决策相关属性,识别各个异构性实体与哪些证据关联程度最紧密,其推论更为可信.
并将这一识别模式用于推导新的测试数据集,而这些测试数据集的标识暂不可知,或因难以获取,或仅能在决策之后才能获得;2)融合多个数据集所得到的推理证据,获取推论的可信度分布,消除多数据表提供的证据信息对查询案例推论存在的不一致性,以提供更加精确的方案.
针对多属性群决策中异构性数据融合推理的相关研究主要有两类.
1)研究的是全域数据融合推理方法.
关系型数据库中相关的多数据表包含部分决策属性,将这些数据表分别推理.
在涵盖所有实体的数据中,寻求与查询案例同类别且相似性高的实体,并将其作为证据信息;而那些与查询案例不同类别的实体被推理出相似性低,再将所有数据表提供的证据进行推论融合.
典型的方法包括回归模型推理方法及其改进方法,文献[8]研究了多源异构关系数据库中构建基于决策树的规则推理方法,通过回归模型选择信息增益最大的属性和跨数据库链接,实现关联数据表的分类推理.
文献[9]针对数据库中不同数据表的属性和关联模式,通过属性内隐知识的依赖关系,传播类别标识,但需要拓展数据库中不含有类别标识的数据表,在其最末一列增加预测的类别标识,进而对各个推理结果进行融合.
文献[10]提出多准则排序融合的证据组合方法,以选择性融合的方式,获取最终的组合结果.
文献[11]提出证据冲突衡量标准下的Dempster-Shafer(D-S)改进算法,改善了处理证据冲突方面的性能.
2)相近的研究是局域数据融合推理方法,将关系数据库中包含多种属性集合的各个数据表融合,形成全部决策属性组成的决策数据集,接着在融合数据集中寻求与查询案例的近邻证据信息,在近邻证据局域内使得与查询案例同类别的近邻证据相似性高,同时使得与查询案例不同类别的近邻证据的相似性低,进而在从各个数据集筛选出的所有近邻证据系列中,融合近邻证据提供的推论信息.
典型的方法包括基于案例和规则的融合机制[1113]、基于相似度的频率加权[1213]、距离矩阵学习[14]等方法.
文献[15]提出专家数据库系统中融合案例数据和关联规则的推理方法,使用笛卡尔积构建联合模式关系,将包含部分决策属性的多数据表合并,得到涵盖决策相关的全部属性的融合数据表,使用案例实体构建规则的前件和结论,并将不相关的案例属性移除,以联合模式关系和条件模式关系作为融合推理的策略.
文献[1618]使用基于信念规则库的推理方法,通过估计规则激活权重、信息源权重等参数,降低了诊断状态转移过程中的不确定性.
文献[19]提出了一个证据推理的规则,使用权值和可靠度对加权可信度分布进行扩展,以使用D-S理论中的可信度分布对多条独立的证据进行融合推理.
文献[20]对异构数据源在模式级和案例级进行识别,对模式级的关系(规则)和属性(案例)进行相似度匹配,进而用分类的方法对实体进行匹配,增强了对模式元素关系进行评估的迭代响应能力.
文献[21]从融合空间的角度使用案例和规则知识构建决策属性酉矩阵,并基于奇异值分解法明确辨识数据源与查询案例之间的知识关联性,实现推理结论可信度融合.
文献[22]提出了一种同时考虑证据自冲突和外部冲突的相似性测度,结合ISODATA聚类方法,利用新测度对证据源进行可信度更新.
文献[23]提出结合弱点关联性的概念,提出了一种基于证据推理网络的实时网络入侵取证方法,获取的证据链完整可信且具备实时推理的能力.
为挖掘大数据集的关联性[24],进行实体相似性推理,因将数据集融合成一个全域数据矩阵的方法具有一定的局限性,针对传感器感知、分块存储的大规模决策数据的特点,本文提出的方法属于局域数据融合推理方法.
虽然这些相关的局域数据融合推理方法为解决实体异构性的多属性群决策提供了一些思路,但也存在一些进一步完善之处:异构性实体之间的相似性评估方面,文献[12]研究了将真实的实体在不同的数据库中使用了不同标识符的情形,并提出了基于概率决策损失优化的实体匹配方法,辨识多个数据库中的实体是否属于同一个.
文献[14]针对多个专家数据表,研究了相似度评价中的综合距离矩阵并进行分类推理.
文献[25]将相似性加权的频率和先验概率结合得到后验概率,对部分相似实体的推理预测.
文献[26]针对一个客观实体在不同的数据库中记录不同时,使用概率分布从这些可能值集合834自动化学报41卷中选择最好的值,并指出这些概率能对给定的决策问题最小化错误推理损失.
证据融合的参数确定方面,文献[14]使用基于专家知识的距离测度学习推理实体之间的特征相似性,提出综合距离集成方法,将从每个数据矩阵中获得可区分的近邻信息及单个优化的距离矩阵,并构建基于加权参数融合各个距离矩阵的优化问题,求解全域一致性的权重矩阵,其特点是共享多个数据矩阵的推理结论而不共享隐性的证据数据.
类似的数据源权重处理比较经典的方法是基于民主投票的方式,通过大多数的决策规则推理预测出决策类别标识,其使用的条件是各个信息源(如决策者提供的案例)权重是一致的.
此外,相关的方法还包括使用互信息的特征选择方法[27],估计信息源的属性权重,将各关联数据表融合后可以消除冗余性,提升推理效率.
可见,在多属性群决策的局域数据融合推理中,针对一个数据表的异构性实体在多个其他数据表中并行匹配研究方面还不深,本文给出一个实体异构性下证据链融合推理的多属性群决策方法.
从多个决策数据表的异构数据中获得可区分的近邻证据集合,通过相似度矩阵进行优化推理,并使用证据融合规则实现来自各个数据表的推理结论融合.
通过可解释性的融合推理方法,提升异构实体下多属性群决策的信息共享能力及决策鲁棒性.
1问题描述1.
1大规模数据集知识表示多源异构信息融合过程,L个决策方如专家个体或群体、分布式环境下大数据集等,各提供一个信息源,如案例数据库和决策数据表等.
信息源的序数用变量l表示,1≤l≤L.
所有数据所形成的数据集合用m维数据空间Dm表示,Dm∈∪m≥1Em,其中,m为数据空间的维度,m≥1.
第l个信息源的特征量用矩阵Dl∈Em表示,它包含nl个实体.
任务有关的决策对象的物理特征使用集合C表示,在分类决策中作为类别变量,C={Cr|r=1,K},其中,r为决策类别的序数,K为类别状态总数.
每个信息源由一系列证据链构成.
令(C,R)为命题空间,其中可信度域R是一个建立在决策事件可能集合C上的布尔代数.
推理中的实体信息来源于所提供的数据集,并使用证据链知识表示.
证据系列EC作为决策者在某时刻提供的证据链集合.
第l个信息源中的第i条证据链Rli表示为Rli:If{Xlijisxlij|j=1,2,m}Then{(Clirisclir,βlir)|r=1,K}(1)其中,xlij为第j个前件属性Xlij的取值,xlij∈Dl;clir是其第r个类别属性Clir的取值,clir∈C;βlir为推论clir的可信度,βlir∈R.
这些多源异构信息中的证据链主要包括两类:1)决策者经验案例的历史决策数据积累,以及根据环境变化进行必要修正的数据;2)决策者所拥有的领域知识,如决策规则或构造的虚拟案例,以及关系数据库的属性和关联模式等.
在数据融合领域的跟踪问题中,证据链为可能的航迹;在医疗诊断问题中,证据链为医生推理决策的证据网链结构;在基于案例和规则的融合推理中,证据链为案例序列和规则集合.
对于查询案例集合,所包含的特征信息用矩阵X表示,X∈Em.
若X中包含Q个实体,每个实体信息使用向量xxx表示,则X=[xxxq]Qq=1=[xqj]Q,mq=1,j=1.
其中,q为实体信息的序数.
常见的查询案例包括:传递到融合中心的多源传感器感知数据、在线查询问题的数据属性值、大数据分块处理中需要推理的数据块等.
以远程诊断为例,查询案例为状态监测、体征检查等中感知数据的特征量.
针对查询案例,用涵盖L个信息源的多数据表进行推导,寻找最近邻的证据链集合,然后融合这些证据链获得推理结论.
多源决策异构数据中,实体异构性作为一种特殊情形,推理检索到的实体可能是不一致的.
实际决策工作,如医疗诊断中同一实体为患者信息,而其诊断状态数据或诊断信息数量有限[28],所以更需要根据异构实体之间的共享信息进行诊断决策.
又因医师诊断水平具有异构性,意味着不同医师对同一诊断工作具有不同的诊断水平,等同于从不同数据库中搜到索的多个案例或在同一数据库中搜索出的多个相关案例,它们所构成的证据序列具有不同的可信度.
实际中的决策不是将关联尺度最大的那个单一实体的结论信息直接赋予查询案例,决策者更加倾向于将关联证据所选择出来的实体信息进行融合推理,进而得出查询案例的结论分布特征.
1.
2可信度函数及D-S信息融合方法定义1.
设Θ为一有限集,Θ中的元素是互斥的,ΛΘ.
在Θ的幂集上定义一基本信度分配函数m(·):2U→[0,1]满足:m()=0,ΛUm(Λ)=1,其中,表示空集.
对于ΛΘ,有m(Λ)>0,则Λ成为m的焦点元素或核元素,而称Core=∪m(Λ)>0Λ为m的核.
基本信度分配函数是专家给出的一种评价,是凭经验给出的一种主观判断,m(Λ)表示在当前证据下对假设成立的一种信任程度.
定义2.
对于ΛΘ,在Θ的幂集上,有可信度函数β(Λ)={m(B)|BΛ,B=},简记为4期沈江等:实体异构性下证据链融合推理的多属性群决策835β(Λ).
可信度函数是一个从可信度域映射到一个封闭实数区间的函数,它关于包含关系单调,下极限在上可达.
在可信度域的元素上,决策者关于证据链的可信度可以根据可信度函数进行量化.
定理1[29].
假设m1和m2为在同一识别框架C下不同信息源的两个基本信度分配函数,根据Dempster正交规则可得:1)m()=0;2)m(A)=11ΓB∩C=Am1(B)m2(C).
其中,Γ表示证据源中冲突相关的基本概率分布,Γ=B∩C=m1(B)m2(C)>0.
2实体异构性下的多源证据链融合推理为充分利用多数据源中的知识,发挥决策中群体智慧的价值,从各个数据集中,通过证据链关联获取对查询案例数据集X最为紧密的证据系列.
使用这些数据提供的共享信息,利用其关于查询案例的推论可信度,通过证据融合规则实现对证据系列的融合推理,获取查询案例的推论及其可信度分布.
2.
1异构性实体相似关联在单个数据表中的相似推理基础上,引入证据链关联的概念,将多个数据表之间的实体数据关联起来,如X与D1的关联(简记为XD1)、X与D2的关联(简记为XD2)等,并在各个数据表中寻求查询案例的相似证据系列.
定义3.
给定数据集X、数据集Dl和整数k,查询案例xxxq∈X.
将在Dl中获取关于xxxq的k最近邻证据系列的推理过程称为证据链关联,记为kNN(xxxq,Dl).
给定li∈Dl,Sl∈kNN(xxxq,Dl),并且li∈DlkNN(xxxq,Dl),证据链关联的相似性测度满足:slqi(xxxq,li)≤slqi(xxxq,li)(2)其中,slqi(·)和slqi(·)为相似性测度.
将X中的所有元素xxxq与Dl中的k个最近邻实体进行关联推理,则X与Dl的证据链关联记为X∝kNNDl,简记为X∝Dl.
形式为X∝Dl=(xxxq,li)xxxq∈X,li∈kNN(xxxq,Dl)根据定义3,kNN关联算子是非对称的,如X∝Dl=Dl∝X,且X∝Dl是X*Dl的一个子集.
给定k≤|Dl|,|X∝Dl|的基数是k*|X|.
关于定义3中的相似性测度,在证据链关联中常使用关联尺度,实现查询案例xxxq和各个数据源Dl中实体之间的多维属性变量关联.
关联尺度是一个量化测量知识组合紧密性的矩阵.
常用的关联尺度包括相关系数、距离尺度、关联系数或者概率相似度.
将关联矩阵记为Ξ,Ξ=[slqi]Q*nl,其中的元素slqi(xxxq,li):RRRm*RRRm→RRR++,slqi是查询案例xxxq与数据源Dl中的第i实体的相似性度量.
这个相似性尺度是异构数据组合(xxxq,li)相近程度在数量上的度量.
在知识库中关联度量有多种方法,针对X∝Dl,这里使用指数型相似度:slqi(·)=expmj=1wj(xxxlixxxq)2=exp(xxxlixxxq)TW(xxxlixxxq)(3)其中,xxxq和xxxli分别表示xxxq和li的观测值向量,W为对称半正定矩阵,W∈Em*m.
对于融合推理决策信息的使用,还需要将证据链中符号型标识的定性推论与其数值型的可信度分布建立逻辑关系.
这里引入可信度序关系,用以使用具有一致性的可信度函数进行多属性群决策的融合推理.
将多源信息获取的各个局域证据进行融合,获得一个全域的推论.
针对各个信息源,利用其中与查询案例关联最紧密的信息进行共享.
定义4[30].
命题空间(C,R)中存在可信度函数β,cr1,cr2∈C,其对应的可信度分别为βr1和βr2.
可信度序关系满足:cr1cr2βr1>βr2(4)因此,在多源异构性实体信息的决策环境中可将定性的类别辨识问题转化定量的可信度推理.
在Dl中任意证据链Rli推论的βlir(r=1,2)与另一证据链Rlir的类别标识的βlir的可信度序关系一致,则满足:当βli,r=1>βli,r=2,则βli,r=1>βli,r=2;当βli,r=1≤βli,r=2,则βli,r=1≤βli,r=2.
定义5.
在X∝Dl中,将Dl中与xxxq具有一致可信度序关系的|Nlo(i)|最近邻集称为同构近邻,记为Nlo(i).
在X∝Dl中,将Dl中与xxxq不具有一致可信度序关系的|Nle(i)|最近邻集称为异构近邻,记为Nle(i).
可见,同构近邻是具有一致的类别标识的证据系列;异构近邻是具有不一致的类别标识的证据系列.
对于查询案例,给定01决策变量δlqi,对于slqi,当xxxli∈{Nlo(i),Nle(i)},δlqi=1;否则,δlqi=0.
使用同构近邻和异构近邻所形成的两个子集的信息矩阵,构建实体异构性多源数据集的证据链融合推836自动化学报41卷理模型(Hefur):βlq(r)=i=1,2,···,nlslqi·δlqi·βliri=1,2,···,nlslqi,r=1,2(5)其中,slqi为相似性测度,βlir为对应的证据链的先验可信度.
slqi中的参数将在第2.
2节中进行优化学习.
2.
2证据链融合推理参数优化学习在同构近邻Nlo(i)和异构近邻Nle(i)的子集中,使用式(3),推导出的相似度分别为slqi(o)=exp((xxxlixxxqi)TW(xxxlixxxqi))(6)slqi(e)=exp((xxxlixxxqi)TW(xxxlixxxqi))(7)其中,xxxli∈Nlo(i),xxxli∈Nle(i).
推理辨识框架为Jl=Qq=1(lnslqi(e)lnslqi(o))(8)这使得同构实体的数据关系紧密而异构实体的数据关系疏远.
因为W∈Em*m为对称半正定矩阵,因此采用不完全Cholesky分解因式分解:W=wwT(9)其中,w为一个下三角矩阵,wT为w的转置矩阵.
则Jl可以转化为Jl=tr(wT(Slqi(e)Slqi(o))w)(10)其中,tr(·)为矩阵的迹;Slqi(e)为异构测度矩阵,Slqi(e)=Qq=1((xxxlixxxqi)(xxxlixxxqi)T),xxxli∈Nlo(i);Slqi(o)为同构测度矩阵,Slqi(o)=Qq=1((xxxlixxxqi)(xxxlixxxqi)T),xxxli∈Nlo(i).
因此,对Hefur模型中的参数进行学习优化:maxwJl=tr(wT(Slqi(e)Slqi(o))w)s.
t.
wTw=I(11)其中,(Slqi(e)Slqi(o))为Slqi(e)与Slqi(o)所构成的判别矩阵.
目标函数反映了能使得决策分类标识能力最大化,这一推理模型尽可能使得查询案例的最近邻同类实例关联紧密,异构实体疏远.
正交性约束wTw=I意味着w为数据源信息相关联的方差阵,对信息源矩阵中的特征信息进行选择和加权,消除冗余性信息.
在查询案例的结论推理过程中,X=Dl,但当训练学习参数时,X=Dl,形成监督学习.
因此,这一基于指数型相似度的参数学习问题转化为二次优化问题.
在各个数据集中,参数优化学习过程意味着提炼各专家经验的隐性知识.
与单个数据表的推理相区别的是,对多数据表中异构性实体之间的相似度推理,分别完成这些优化学习过程,并得出参数的局域解;而不需要一次性学习优化得出参数的全域解.
这避免了将所有的这些数据表进行整合,因为实际决策如大数据分布式数据表、群决策的各个数据表中分块的数据映射、融合更加有效.
2.
3多数据集中证据链融合多源异构群决策因数据集的实体异构性,查询案例依据单个最相似的证据链得出的推理结果解释能力有限,或因受到决策者决策水平、数据的非平衡性等因素影响,各个数据集在证据链融合推理中会存在不一致或冲突的情形,所以有必要针对各个数据集的推理结果进行可信度融合.
通过多个决策数据集共同提供证据来积累推论可信度,利用各个数据表多个近邻的优选证据链提供的共享信息,以增强推理过程的解释能力.
为将L个数据集D1,D2,DL(L≥2)的推理结果有效集成,提出多证据链可信度融合定理,将各个数据集中的kNN(xxxq,D1)、kNN(xxxq,D2)等进行融合.
定理2.
在(C,R)上,对于二元分类决策,C={Cr|r=1,2}.
βli(Cir)是第l个决策方数据表提供的近邻证据系列的局域融合可信度,βli(Cir)∈{βli,1,βli,2}.
对于查询案例xxxq,在多决策数据集中的全域可信度融合规则为βq(Cqr)=11Γ∩Ll=1Cir=CqrLl=1βli(Cir)(12)其中,Γ=∩Ll=1Cir=(Ll=1βli(Cir)).
证明.
βli(Cir)是第l个决策方数据表提供的近邻证据系列的局域融合可信度,由式(4)知,βlq(r)=(islqi·δlqi·βlir)/islqi,r=1,2.
当xxxli∈{Nlo(i),Nle(i)}时,δlqi=1.
因为二元分类决策C={Ck|k=1,2},则幂集2C={,{C1},{C2},{C1,C2}}.
根据证据融合理论,基本可信度分布使用映射函数m(·)→[0,1]表示,并且满足的性质包括:m(A)≥0,A∈2CCC;m()=0;A∈2Cm(A)=1.
又因可信度函数β(A)=A∈2C,CiAm(Ci).
对于二元分类决策,如果融合决策信息完备,则m({C1,C2})=0;β({Ck})=m({Ck}),且k=1,2β({Ck})=A∈2CCCm(A)=1.
因此,对于β({Ck}),适用于Dempster融合公式的条件,使用定理1,可推导出式(12).
特别地,给定所有数据库的集合D∈∪m≥1Em,第l个决策方数据特征矩阵Dl∈Em,对于L个决策方的信息源,当L=2时,证据链可4期沈江等:实体异构性下证据链融合推理的多属性群决策837信度融合规则为βq(Cqr)=11Γ∩2r=1Cir=Cqr(β1i(Cir)·β2i(Cir))(13)其中,Γ=∩2l=1Cir=(β1i(Cir)·β2i(Cir)).
因此,本方法对案例特征的融合推理过程使用了其他信息源中紧邻证据系列的共享信息,不再提供单一的点估计,而是以候选证据链信度为依据,为群决策问题提供决策序列.
决策方推理的结论是概率分布集合,增强了推理结论的可解释能力.
3模型稳定性分析与求解步骤3.
1稳定性分析定理3.
给定目标函数Jl=tr(wT(Slqi(e)Slqi(o))w)的最优解为WWW=[w1,wm],条件为wTw=I,其中,Slqi(e)∈Em*m和Slqi(o)∈Em*m分别为从决策方l中获取的关于查询案例xxxq的同构相似度矩阵和异构相似度矩阵.
给定判别矩阵(Slqi(e)Slqi(o))∈Em*m,其特征值σl1>σl2σlm,则WWW=[w1,wm]为对应的满足正交变换的特征向量,且maxtr(wT(Slqi(e)Slqi(o))w)=ki=1σli(k≤m),其中,σli为判别矩阵的特征值.
证明.
定义第l决策方的同构邻接矩阵wol∈Enl*nl和异构邻接矩阵wel∈Enl*nl的(i,j)元素分别为wol(i,j)=1,xxxqiadjxxxlj,xxxli∈lo(i)0,xxxqinadjxxxlj,xxxli∈le(i)wel(i,j)=1,xxxqiadjxxxlj,xxxli∈le(i)0,xxxqinadjxxxlj,xxxli∈le(i)其中,nl为第l决策方的数据集的实体数量.
在各个训练数据库中分别计算WWW.
设Gol=diag{jwol(1,j)jwol(n,j)}是n*n对角同构邻接矩阵,其在对角线上的第i个元素等于wol的第i行的总和.
则定义第l决策方的同构拉普拉斯算子为Lol=GolWol,Lol∈Enl*nl.
类似地,定义异构拉普拉斯算子为Lel=GelWel,Lel∈Enl*nl.
因此目标函数式(11)可写成tr(wT(Slqi(e)Slqi(o))w)=tr(wTX(LolLel)XTw)=ki=1wTiXlLolLelXlTwi=ki=1wTiXlLlXlTwi其中,Ll是差分拉普拉斯矩阵,Xl为第l决策方的实体集合.
因此,maxtr(wT(Slqi(e)Slqi(o))w)=ki=1σi定理3论证了在判别矩阵稳定性条件下,通过优化模型式(11)可求解得出融合推理的参数矩阵w.
w经正交变换处理后得到WWW.
其计算复杂度在最坏的情形下达O(m3).
在推理中所选择的近邻证据链比较稀疏,在同一条件下可采用简化的近似估算过程,以降低计算的复杂度.
通过计算判别矩阵的主特征值σl1相应的主特征向量,并正规化特征向量w1,将其分量wj作为对应元素的权值.
权值中接近于零的mk个分量所对应的属性数据视为冗余信息,在推理过程中不予计算,其他的k个属性数据构成融合推理的优化特征集,这些特征权值对应的分量构成向量wk.
因此,相似度矩阵的特征值使得优化模型具有稳定性,证据可信度的凸组合通过多个数据集的级联,推导出来的可信度不会在这些数据集单独推导出的可信度的连接区间之外.
优化参数能够使得集成的推论可信度对类别辨识能力更强,推理过程利用了决策的群体智慧,使得融合推理模型对于未标识类别的查询案例具有决策鲁棒性.
3.
2基于MapReduce的推理过程针对查询案例序列,在各个数据集中启发式检索与当前情形最相似的证据链集.
MapReduce技术框架作为面向大数据分析和处理的并行计算模型,采用元数据集中管理、数据块分散存储的模式[31].
本方法基于MapReduce的框架进行融合推理.
利用所提出的模型,通过查询案例序列信息与已有数据集的证据链关联,形成融合推理步骤.
步骤1.
Map阶段证据链映射,输入键值对(证据编码,证据链信息向量).
针对查询案例中的每一个实体xxxq∈X,映射函数map(·)对从一个数据表X到另一个数据表Dl中的每一个实体Rli∈Dl赋予一个键.
进而将大规模的数据集划分为L个数据块,依据这个键将D划分成不相交子集,如D=∪1≤l≤LDl.
对异构信息提取特征属性,对于不同类型的数据,使用离散化、符号属性数值化、归一化等方法处理.
输出键值对(数据表编码,(证据编码,证据链信息向量)).
步骤2.
分块信息传递过程中,针对X中的实体xxxq,不使用任何的修剪规则,X的整个集合都被发送到每个融合器中,以与Dl中数据进行相似度推理.
在数据重新组合(Shuing)中,每个Dl被传递到一个融合器中.
因此Dl中的实体将被复制和838自动化学报41卷传递到多个融合器中.
步骤3.
Reduce(融合)阶段,输入键值对(数据表编码,证据链信息向量).
针对查询案例,融合机将传递来的证据信息执行kNN关联.
X∝D=X∝∪1≤l≤LDl.
结合优化特征集及权值wk,使用指数型相似度式(3)对查询案例与证据链属性进行关联匹配并获取slqi.
在每个数据库中,精炼证据链集合,并使用使用式(4)计算出βlik.
推理机l(l=1,L):使用证据链Rli进行关联推理,i=1,nl,得到:temp(l)i=kNN(xxxi,Dl)βlq(r)=islqi·δlqi·βlirislqi输出键值对(查询编码,(kNN(xxxi,Dl),βlq(r)).
步骤4.
推论信息分享,将Dl中关于xxxi的|Nlo(i)|+|Nle(i)|个最近邻实体传递到同一个融合器,并将它们赋予xxxi同样的键.
融合kNN(xxxi,Dl),使用定理2的式(12),计算融合可信度值βq(Cqr),并更新结论信息(Cqr,βq(Cqr)).
通过信息融合推理的逆变换过程分享证据链.
数据重新组合的复杂度为|D|+L·|X|.
如果证据链所提供的方案在过去是成功的,则直接使用这一证据链所对应的方案,并可根据当前的状况做适当的调整;如果没有检索到历史证据链,则根据专家经验或领域知识规则给出一个当前的方案,并记录该方案的决策结果,将其记录入案.
输入的案例序列如果矩阵,则经证据链关联后,将优化的结论分享与每个输入案例,并与领域知识(或专家)得出的病理结论比对,检验模型性能.
新的案例或规则,可固化知识形成新的关联证据链,以多次利用证据数据提升决策价值.
4应用实例分析决策数据集为从大规模的医疗电子病历(EHRs)、传感器感知信息以及专家对样本做类别标识的经验知识等信息源中截取的分块数据.
这些多源异构决策信息源的数据集覆盖一系列代表单个实体(如医疗患者)的事件.
为讨论患者的病情存在诊断和治疗的难题,医疗专家组从不同科室调来大量的拥有丰富经验知识专家进行决策,这些专家拥有相当于一个独立数据集的知识库.
使用本文方法进行临床决策支持,通过具有实体异构性的相似病案信息共享,进行融合推理决策,并在具有不同数量的同构实体和异构实体的决策数据表上,对相关方法及推理结果进行性能比较.
4.
1实验平台和决策数据集实验的操作系统是Ubuntu10.
04,数据库管理系统是PostgreSQL8.
4.
8,处理器配置为IntelCore2P8400(2.
93GHz,2G).
考虑到大规模数据的分布式数据库推理融合问题,实验数据使用UCIrvine决策数据库[32]中的Heart(Cleveland)数据集D1和Heart(Hungarian)数据集D2作为群决策训练数据集,Heart(LongBeachVA)作为测试集.
使用的数据集信息表,如表1所示.
表1实验使用的UCI数据集信息表Table1ExperimentalinformationoftheUCIdatasets多源数据数据属性数类别标识类分布D1Heart(Cleveland)13Present;Absent164/139D2Heart(Hungarian)13Present;Absent188/106XHeart(LongBeachVA)1351/149这些决策数据集来自于不同的信息源(关联数据库),它们通过匹配方式与特定患者关联并完成时间对准.
将包含患者的识别信息(姓名、医疗病历编号)的波形数据文件、生理数据记录(以案例ID为索引)与相应的临床信息记录匹配.
在Heart(Cleveland)数据集中,303个连续的病人案例所记录的实体均龄54岁,68%为男性,心脏病的患者比例为54.
13%.
在Heart(Hungarian)数据集中,294个连续的病案所记录的实体中,心脏病的患者比例为63.
95%.
数据集信息包括所有患者病历和生理检查、静息心电图和化验记录等多源异构数据.
这些数据集的获取所使用的多源传感器包括静脉压检测仪、血清蛋白测量仪、血糖测量仪、心率测试仪和心电监护仪等,其心脏病数据记录有多个特征属性,包括患者的心电图、脉搏波、血压、呼吸波、液晶屏上起搏操作同步记录、药物种类、给药剂量等76种特征.
不同属性特征在心脏病急救决策中发挥的作用不同,其中一些属性特征对知识推理具有重要作用,本文使用常用于诊断推理的13个特征.
样本空间中每个样本有一个由专家根据经验或医疗领域知识给出的类别标识,即这些数据集被分离为四种类型的心脏病和没有心脏病,按二元分类将CHD划分为Present和Absent,分别记为C1和C2.
这些关系数据融合过程经过2个阶段:1)将来自检测仪(传感器)生成的数据记录中的姓名和医疗记录编号(可获得的准确记录过的)与系统中的临床数据记录的对应部分相匹配;2)包括从测试数据集,4期沈江等:实体异构性下证据链融合推理的多属性群决策839如在线监测的检测数据中的生理趋势信息与临床信息系统中的监护人员检验过的生命体征信息相匹配,寻找最近邻的证据支持.
经过数据库融合过程,实现了患者的多源异构数据集中管理,供异构性数据的进一步融合推理.
4.
2预处理与诊断推理数据预处理过程中,对于训练集中的6个缺失数据被丢弃,27个争议数据被修改.
对逻辑布尔型属性和描述型属性进行符号化处理,将所有属性的各种取值映射为符号,对于描述型属性,根据取值区间分别映射,如将属性Cp的取值typi-calangina、atypicalangina、non-anginalpain和asymptomatic分别映射为1、2、3和4.
使用这一数据集中的190个和100个样本分别作为训练集和测试集.
使用前文中参数学习优化方法及定理3,通过计算判别矩阵的主特征向量并正规化,将其分量作为对应元素的权值.
对Heart(Cleveland)数据集,获取的优化特征集为{Age,Sex,Cp,BP,restECG,Thalach,Exang,Slope,Thal},这9个特征对应的wk中的分量分别为[0.
0743,0.
0105,0.
2342,0.
0111,0.
0352,0.
1030,0.
1577,0.
1437,0.
2303].
对Heart(Hun-garian)数据集,获取的优化特征集中这9个特征对应的wk中的分量分别为[0.
1735,0.
0588,0.
0588,0.
1471,0.
0588,0.
2353,0.
0912,0.
1176,0.
0589].
在数据集D1中,以其中一个案例数据为例.
实体信息如下:Age年龄(Year)为57,性别为男,胸痛类型(Cp)为2(atypicalangina),血压(Sys-tolicBloodPressure,BP)为124mmHg;安静时的心电图结果(Restecg)为0(normal);最高心率(Thalach)为141;是否运动导致心绞痛(Exang)为0(no);峰值ST倾斜角度(Slope)为1(向上倾斜)和心跳情况(Thal)为7(可逆缺陷).
将这一多源异构信息源获取数据转化为证据链,为R11:IfAgeis57∧Sexis1∧Cpis2∧BPis124∧restECGis0∧Thalachis141∧Exangis0∧Slopeis1∧Thalis7Then(CHDisPresent,βi1=100%),(CHDisAbsent,βi2=0%)证据链所表示的传感器感知的信息或电子病历的体征变量,常按照心脏病诊断临床路径获取.
类似地,对于数据集D2,将其多源异构信息源获取的一个证据链实例为R21:IfAgeis41∧Sexis2∧Cpis1∧BPis128∧restECGis2∧Thalachis137∧Exangis1∧Slopeis2∧Thalis4Then(CHDisPresent,βi1=0%),(CHDisAbsent,βi2=100%)使用Key和Value表示多源数据表的关联MapOut表和使用D-S规则推导的测试案例的融合结果ReduceOutput表输出的字段和取值,如表2和表3所示.
表2中,查询案例在数据表D1中得出|Nlo(i)|+|Nle(i)|=3时的近邻证据链为EC列的EC1、EC4和EC52,所对应的δlqi都取值为1,识别各个异构性实体相关联的最可靠的证据集合.
进而使用式(4)计算出近邻证据链对查询案例的相似度分别81.
47%、85.
07%和68.
37%.
依据数据表训练数据的类别标记,当样本取值为Present时,将βi1和βi2分别赋值为100%和0;当样本取值为Absent时,将βi1和βi2分别赋值为0和100%.
类似地,可得出这一查询案例在数据表D2中的近邻证据链、相似度和各个可信度.
表2多源数据表的关联MapOut表Table2MapOuttableassociatedwithmulti-datasetsKeyValueLineIDDatasetECδlqis(%)βi1(%)βi2(%)1D1EC1δ11,1=181.
4710002D1EC4δ1,4=185.
0701003D1EC52δ1,5=168.
3701004D2EC2δ2,1=190.
8310005D2EC41δ2,4=182.
5610006D2EC67δ2,6=178.
570100.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
表3测试案例的ReduceOutput结果表Table3ReduceOutputresulttableofthetestingcasesKeyValueDNearestECsβi1(%)βi2(%)D1δ11,1=1,δ1,4=1,δ1,52=171.
2028.
80D2δ11,2=1,δ2,41=1;δ2,67=1;68.
8131.
19.
.
.
.
.
.
.
.
.
.
.
.
表3中,依据从关系型数据表获取的近邻异构证据链集合,通过式(4)计算出各个数据表的集成840自动化学报41卷可信度,如查询案例从数据集D1中获得的集成可信度分别为71.
2%和28.
8%,并将这些可信度分布用于进一步计算多数据表的融合信度.
针对查询案例在D1和D2中分别得出的可信度,使用定理2的融合规则,得出D1∨D2的融合信度为:βi1=84.
51%;βi2=15.
49%.
4.
3实验结果使用Hefur模型求解,计算测试数据集中的查询案例1(X1∈X)在不同的同构实体和异构实体下的融合信度,如图1所示.
针对查询案例集合X,使用本方法在单个数据集下的推理准确度D1(He-fur)与D2(Hefur),以及本方法Hefur与Comdi方法[14]在多个测试数据集(D=D1∨D2)下的推理准确度,结果比较如图2所示.
图1对测试数据集中查询案例X1推理出的融合可信度Fig.
1CombingbeliefofthecaseX1fromthetestingdatawiththereasoningmethod图1中x和y轴分别表示样本数据的同构近邻证据和异构近邻证据的数量|Nlo(i)|和|Nle(i)|;z轴表示数据的融合可信度βi1.
在训练集D1和D2的优化过程中|Nlo(i)|=|Nlo(i)|时,查询案例的推论可信度取最大值.
且随着|Nlo(i)|的增加,查询案例的可信度在一定范围内增加,而随着|Nle(i)|的增加,查询案例的可信度在一定范围内降低.
在针对查询案例,根据其信度和类别逆向推理,可在证据链关联矩阵中查询中最相关的证据链集合,并将对应的信息分享给诊断决策用户.
图2中横轴表示使用的测试数据集及对应的方法,即D1(Hefur)、D2(Hefur)、D(Hefur)和D(Comdi),纵轴表示方法的准确度.
准确度[21]为Acc=(TP+TA)/(TP+TA+FP+FA),其中,TP、FN表示为查询案例的实际类别C1分别被推理为C1和C2的样本数;FP、TN分别表示查询案例实际类别为C2而分别被推理为C1和C2的样本数.
图2中的结果表明了查询案例从训练集中分别获取3个最近邻证据链时,在不同数据集或不同方法下得到的推理准确度.
从比较结果可以看出,D(Hefur)的准确度均值为89.
05%,比D1(Hefur)的准确度均值84.
27%和D2(Hefur)的82.
69%更高,并且其方差也更小,即D(Hefur)的总体性能更好.
这是因为所提出的方法在数据集上实现了更大规模的决策信息共享.
D1(Hefur)的准确度均值比D2(Hefur)的性能更好,是因为后者的数据非均衡性(188/106)比前者的数据非均衡性(164/139)更高.
同时,D(Hefur)在准确度均值比Comdi方法在同一规模的数据集上的准确度均值87.
84%更高,并且方差也更小,这是因为所提出的方法通过多数据集的融合规则获得了推理的近邻证据集及其可信度分布,消除了多数据表提供的证据信息对查询案例推论可能存在的不一致性而提供了更加准确的方案.
图2所提出方法在多决策表下的推理准确度比较Fig.
2Accuracycomparisonofthereasoningmethodsonmultipledecisiondatasets从决策信息结构来看,文献[14]所提出Comdi方法使用多个决策信息源的全域数据,通过相似度评价获得综合距离矩阵,以距离最近邻的局域数据作为推理证据对查询案例进行判别分类.
与此相区别的是,本文所提出的Hefur方法针对多数据源中各决策方提供的局域数据,使用相似度矩阵对分块数据的决策参数进行优选学习,实现查询案例在多数据表中的并行匹配和证据融合,并以可信度序关系作为定性分析到定量判别分类依据,因此提升了可解释性推理的准确性和鲁棒性.
5结论异构数据融合特别是在大数据或分布式存储等新兴的群决策数据处理中,日益成为工程实践和管4期沈江等:实体异构性下证据链融合推理的多属性群决策841理中多属性群决策的焦点问题.
由于单个决策者或单个数据库的知识有限性,需要对多数据表信息进行异构数据融合.
然而,现有的多个关系数据库的融合主要集中在数据表的同质性合并及融合推理上,对群决策下多数据表中的异构性实体数据的相似性推理研究不深,因此本文提出了实体异构性下的证据链融合推理多属性群决策方法.
与采用单数据表的信息源融合推理方法相比,本方法针对查询案例在各个数据表中相似匹配的异构性实体数据,分享多源决策的近邻证据链,进而各数据表提供的可信度信息,而不需要构建大规模数据的稀疏矩阵(如Comdi方法中的综合距离矩阵[14],基于频率相似度加权的概率方法中的联合数据矩阵[13]).
另外,该方法最大限度的考虑到了多数据表之间的异构性:1)各个数据表中的实体异构性通过求解基于相似度矩阵的二次优化求解特征值,获得了最佳的属性权重,使得与查询案例的同构近邻和异构近邻快速获得.
2)针对多数据表之间可能存在的证据可信度不一致性,使用证据融合规则将各个数据表的结论进行融合,其可解释性的融合推理过程提升了异构实体数据之间的信息共享能力.
对于异构数据的多源信息融合推理,时空异构环境下信息融合推理动态过程,包括证据链前件的推导、部分信息下的动态推理等,作为进一步的研究方向.
另外,对应于多数据表中各证据链类别的可信度的精确获取,也可作为后续研究的内容.
References1ScottD,LeeJ,SilvaI,ParkS,MoodyG,CeliL,MarkRG.
AccessingthepublicMIMIC-IIintensivecarerelationaldatabaseforclinicalresearch.
BMCMedicalInformaticsandDecisionMaking,2013,13:92ScottM,BoardmanRP,ReedPA,CoxSJ.
Managinghet-erogeneousdatasets.
InformationSystems,2014,44:34533HomannS,FischbeckP,KrupnickA,McWilliamsM.
Elic-itationfromLarge,Heterogeneousexpertpanels:usingmultipleuncertaintymeasurestocharacterizeinformationqualityfordecisionanalysis.
DecisionAnalysis,2007,4(2):911094KrishnanR,LiXP,SteierD,ZhaoL.
Onheterogeneousdatabaseretrieval:acognitivelyguidedapproach.
Informa-tionSystemsResearch,2001,12(3):2863015BaronJ,MellersBA,TetlockPE,StoneE,UngarL.
Tworeasonstomakeaggregatedprobabilityforecastsmoreex-treme.
DecisionAnalysis,2014,11(2):1331456OLearyDE.
Articialintelligenceandbigdata.
IEEEIn-telligentSystems,2013,28(2):96997FanJQ,HanF,LiuH.
Challengesofbigdataanalysis.
NationalScienceReview,2014,12(1):2933148MehenniT,MoussaouiA.
Dataminingfrommulti-pleheterogeneousrelationaldatabasesusingdecisiontreeclassication.
PatternRecognitionLetters,2012,33(13):176817759ManjunathG,NarasimhaMurtyM,SitaramD.
Combin-ingheterogeneousclassiersforrelationaldatabases.
Pat-ternRecognition,2013,46(1):31732410YangYi,HanDe-Qiang,HanChong-Zhao.
Evidencecom-binationbasedonmulti-criteriarank-levelfusion.
ActaAu-tomaticaSinica,2012,38(5):823831(杨艺,韩德强,韩崇昭.
基于多准则排序融合的证据组合方法.
自动化学报,2012,38(5):823831)11HuChang-Hua,SiXiao-Sheng,ZhouZhi-Jie,WangPeng.
AnimprovedD-Salgorithmunderthenewmeasurecriteriaofevidenceconict.
ActaElectronicaSinica,2009,37(7):15781583(胡昌华,司小胜,周志杰,王鹏.
新的证据冲突衡量标准下的D-S改进算法.
电子学报,2009,37(7):15781583)12DeyD,SarkarS,DeP.
Aprobabilisticdecisionmodelforentitymatchinginheterogeneousdatabases.
ManagementScience,1998,44(10):1379139513BillotA,GilboaI,SchmeidlerD,SametD.
Probabilitiesassimilarity-weightedfrequencies.
Econometrica,2005,73(4):1125113614WangF,SunJ,EbadollahiS.
Compositedistancemetricin-tegrationbyleveragingmultipleexpertsinputsanditsap-plicationinpatientsimilarityassessment.
StatisticalAnal-ysisandDataMining,2012,5(1):546915SegevA,ZhaoJL.
Rulemanagementinexpertdatabasesystems.
ManagementScience,1994,40(6):68570716YangJB,LiuJ,WangJ,SiiH,WangH.
Beliefrule-baseinferencemethodologyusingtheevidentialreasoningapproach-RIMER.
IEEETransactionsonSystems,Man,andCybernetics,PartA:SystemsandHumans,2006,36(2):26628517WangJQ,ZhangHY.
Multicriteriadecision-makingap-proachbasedonatanassovsintuitionisticfuzzysetswithincompletecertaininformationonweights.
IEEETransac-tionsonFuzzySystems,2013,21(3):51051518WangJQ,NieRR,ZhangHY,ChenXH.
Intuitionisticfuzzymulti-criteriadecision-makingmethodbasedonev-identialreasoning.
AppliedSoftComputing,2013,13(4):1823183119YangJB,XuDL.
Evidentialreasoningruleforevidencecombination.
ArticialIntelligence,2013,205:12920ZhaoH,RamS.
Combiningschemaandinstanceinfor-mationforintegratingheterogeneousdatasources.
Data&KnowledgeEngineering,2007,61(2):28130321XuM,YuHY,ShenJ.
NewalgorithmforCBR-RBRfu-sionwithrobustthresholds.
ChineseJournalofMechanicalEngineering,2012,25(6):12551263842自动化学报41卷22LiXin-De,WangFeng-Yu.
AmethodofevidencereasoningbasedontheISODATAclusteringandimprovedsimilarityMeasure,ActaAutomaticaSinica,2015,41(3):575590(李新德,王丰羽.
一种基于ISODATA聚类和改进相似度的证据推理方法,自动化学报,2015,41(3):575590)23TianZhi-Hong,YuXiang-Zhan,ZhangHong-Li,FangBin-Xing.
Areal-timenetworkintrusionforensicsmethodbasedonevidencereasoningnetwork.
ChineseJournalofComput-ers,2014,37(5):11841194(田志宏,余翔湛,张宏莉,方滨兴.
基于证据推理网络的实时网络入侵取证方法.
计算机学报,2014,37(5):11841194)24ReshefDN,ReshefYA,FinucaneHK,GrossmanSR,McVeanG,TurnbaughPJ,LanderES,MitzenmacherM,SabetiPC.
Detectingnovelassociationsinlargedatasets.
Science,2011,334(6062):1518152425BordleyRF.
UsingBayesruletoupdateaneventsprob-abilitiesbasedontheoutcomesofpartiallysimilarevents.
DecisionAnalysis,2011,8(2):11712726JiangZR,SarkarS,DeP,DeyD.
Aframeworkforrecon-cilingattributevaluesfrommultipledatasources.
Manage-mentScience,2007,53(12):1946196327XuM,YuH-Y,ShenJ.
Newapproachtoeliminatestruc-turalredundancyincaseresourcepoolsusingalphamutualinformation.
JournalofSystemsEngineeringandElectron-ics,2013,24(4):62563328YangJin-Feng,YuQiu-Bin,GuanYi,JiangZhi-Peng.
Anoverviewofresearchonelectronicmedicalrecordorientednamedentityrecognitionandentityrelationextraction.
ActaAutomaticaSinica,2014,40(8):15371562(杨锦锋,于秋滨,关毅,蒋志鹏.
电子病历命名实体识别和实体关系抽取研究综述.
自动化学报,2014,40(8):15371562)29BasirO,YuanXH.
Enginefaultdiagnosisbasedonmulti-sensorinformationfusionusingDempster-Shaferevidencetheory.
InformationFusion,2007,8(4):37938630WongSKM,LingrasP.
Representationofqualitativeuserpreferencebyquantitativebelieffunctions.
IEEETrans-actionsonKnowledgeandDataEngineering,1994,6(1):727831XueYong-Jian,NiZhi-Wei.
ResearchoflargescalemanifoldlearningbasedonMapReduce.
SystemsEngineeringTheory&Practice,2014,34(S1):151157(薛永坚,倪志伟.
基于MapReduce的大规模数据集流形学习降维研究.
系统工程理论实践,2014,34(S1):151157)32AsuncionA,NewmanD.
UCImachinelearningrepository.
[Online],available:http://www.
ics.
uci.
edu/mlearn/MLRepository.
html,October28,2010沈江天津大学管理与经济学部教授.
主要研究方向为信息融合,多传感器数据获取和群决策.
E-mail:motoshen@163.
com(SHENJiangProfessorattheCol-legeofManagementandEconomics,TianjinUniversity.
Hisresearchin-terestcoversinformationfusion,multi-sensordataacquisition,andgroupdecision-making.
)余海燕天津大学管理与经济学部博士研究生.
2009年获得南京邮电大学经济与管理学院学士学位.
主要研究方向为证据推理,医疗数据挖掘和基于相似推理.
E-mail:yhy188@tju.
edu.
cn(YUHai-YanPh.
D.
candidateattheCollegeofManagementandEco-nomics,TianjinUniversity.
HereceivedhisbachelordegreefromNanjingUniversityofPostsandTelecommunicationsin2009.
Hisresearchinterestcoversevidentialreasoning,medicaldatamining,andsimilarity-basedreasoning.
)徐曼南开大学工业工程系讲师,2011年获得天津大学博士学位.
主要研究方向为基于规则推理,信息融合和医疗诊断决策.
本文通信作者.
E-mail:twinklexu@163.
com(XUManLecturerintheDepart-mentofIndustrialEngineering,NankaiUniversity.
ShereceivedherPh.
D.
de-greefromTianjinUniversityin2011.
Herresearchinterestcoversrule-basedreasoning,informationfusion,andmedi-caldiagnosisdecision.
Correspondingauthorofthispaper.
)

展开全文