特征递归迭代

递归迭代时间:2021-05-03 阅读:()

控制与决策ControlandDecision基于Hessian正则的自适应损失半监督特征选择朱建勇1,2,周振辰1,2,杨辉1,2,聂飞平3(1.
华东交通大学电气与自动化工程学院,南昌330013;2.
江西省先进控制与优化重点实验室,南昌330013;3.
西北工业大学光学影像分析与学习中心,西安710072)摘要:传统基于拉普拉斯图的半监督特征选择算法处理高维、少标签样本缺乏外推能力及对数据异常值的鲁棒性差等特点,本文提出一种基于Hessian正则的自适应损失半监督稀疏特征选择算法.
首先,为提升线性映射能力,利用Hessian正则保留数据的局部流形结构;其次,为增强模型对具有较小或者较大损失数据的鲁棒性,引入自适应损失函数,通过调节自适应损失参数确定最小损失;接着,采用l2,p范数稀疏投影矩阵,提升特征的区分度及增加模型适应度;最后采用递归迭代优化求解目标函数.
仿真实验表明所提方法的有效性和优越性.
通过基于卷积激活的深度特征实验也证明了本文方法的有效性.
关键词:半监督;特征选择;自适应损失;稀疏约束;l2,p范数中图分类号:TP391文献标志码:ADOI:10.
13195/j.
kzyjc.
2019.
1510Adaptivelosssemi-supervisedfeatureselectionbasedonHessianregularizationZHUJian-yong1,2,ZHOUZhen-chen1,2,YANGHui1,2,NIEFei-ping3(1.
CollegeofElectricalandAutomation,EastChinaJiaotongUniversity,Nanchang330013,China;2.
KeyLaboratoryofAdvancedControlandOptimizationofJiangxiProvince,Nanchang330013,China;3.
Centerforopticalimageanalysisandlearning,NorthwesternPolytechnicalUniversity,Xi'an710072,China)Abstract:Thetraditionalsemi-supervisedsparsefeatureselectionbasedonLaplaciangraphhasreceivedextensiveattentionforitshigherefficiency.
However,duetothelackofextrapolationabilityoftheLaplacianoperator,thelimitedlabeleddataisstillnotwellutilizedandistoosensitivetooutliers.
Therefore,anadaptivelosssemi-supervisedsparsefeatureselectionalgorithmbasedonHessianregularizationisproposedinthispaper,namedAHFS.
Firstly,Hessianisusedtopreservethelocalmanifoldstructureofdatainordertoimprovethelinearmappingcapability.
Atthesametime,anadaptivelossfunctionisexploitedtomeasurethelabelfitnessbyadjustingtheadaptivelossparameters,whichsignificantlyenhancesmodel'srobustnesstodatawithasmallorsubstantialloss.
Moreover,l2,p-normisleveragedtoconstrainthepredictionmatrix,whichnotonlyimprovesthedistinguishingdegreeoffeatures,butalsoincreasestheadaptabilityoftheproposedmodel.
Then,arecursiveiterativeoptimizationalgorithmisproposedtosolvetheproposedmodel.
Finally,systematicexperimentalresultsonrealpublicdatasetsillustratetheeffectivenessandsuperiorityoftheproposedapproachonrelatedtasks.
Inaddition,anextensiveexperimentonthedeepconvolutionalactivationfeaturesalsoshowtheeffectivenessoftheproposedapproach.
Keywords:semi-supervised;featureselection;adaptiveloss;sparseconstraint;l2,p-norm0引言近年来,随着信息技术的革新,数据维数变得日益复杂,甚至超过了数百万个特性,加重了"维度灾难".
机器学习中一些实际应用,如人脸识别[1],图像检索[2-3],视频语义识别[4-6],基因诊断[7]等,极易产生高维数据.
例如在基因诊断任务中,实验中测量基因表达水平的基因表达数据,通常由数千个基因组成.
在对这些数据进行分类时,所学习的模型容易过拟合,泛化能力较差.
这些应用中的高维数据中仅有一小部分特征与类别高度相关,而大多数特征是不相关或者冗余的特征,直接处理这些高维据容易导致大量的计算消耗[8].
因此,特征提取和特征选择成收稿日期:2019-10-29;修回日期:2020-01-18.
基金项目:国家自然科学基金重点项目(61733005),国家自然科学基金地区项目(61563015、61963015、61863014),江西省自然科学基金项目(20171ACB21039、20192BAB207024),江西省教育厅科技项目课题(GJJ150552).
通讯作者.
E-mail:yhshuo@263.
net.
2控制与决策为主要的降维策略[9].
特征提取将原始空间的特征映射到一个低维的特征空间,改变了原始特征空间.
特征选择从原始高维特征空间中选择出一个判别性的特征子集,保留原始特征空间,具有一定的可解释性[10].
根据对标签信息的可用性,特征选择分为有监督、无监督和半监督三类.
有监督特征选择可以根据标签信息与特征集之间的联系评价特征的冗余性,需要大量标签样本选择代表性特征子集[11].
无监督特征选择完全抛弃了标签信息,仅依靠无标签数据评估特征的相关性[12-13].
随着数据的快速增长,给这些数据标注标签信息往往需要耗费较多的人力和财力[14].
由于在机器学习相关任务中获取的数据通常由少量标签数据和大量无标签数据组成.
为此,较多的研究人员不断探索能够同时利用标签数据和无标签数据的半监督特征选择算法.
半监督特征选择方法利用标签数据的信息以及标签数据和无标签数据的局部结构进行训练,来评价特征相关性,尽而选择判别性的特征,有效地提升有监督学习模型泛化能力和无监督学习模型的精确性[15].
多数半监督特征选择算法是基于过滤器,单独对每个特征进行评价,通过对特征进行排序,选择高排名的特征并将其应用于预测器[16].
但这类方法忽略了特征与特征之间的相关性,即某些特征本身提供的信息较少,但是与其他特征结合时提供的信息较多[17].
文献[18]提出基于包裹器的半监督特征选择算法,考虑不同特征之间的相关性,通过分别构建标签信息矩阵、局部样条回归编码数据分布的样条散射输出矩阵,将这两类矩阵相结合,实现对训练集的识别信息和局部几何结构的捕获,促进了判别性特征子集地形成.
然而,该方法涉及迭代特征子集搜索,处理高维数据比较耗时.
嵌入式半监督方法将特征选择作为训练过程的一部分,即在学习器训练过程中自动地进行了特征选择.
在此基础上,为了更好的描述数据的局部或者全局的流行结构,文献[19]引入图拉普拉斯正则化描述数据的结构,同时结合了流行学习探索特征空间.
文献[20]通过最大化不同类之间的分类界限并利用生成标记和未标记数据的概率分布的几何特性来选择特征,加强了对判别性特征的选择.
文献[21]基于多特征融合的思想,通过多种角度描述对象特征,通过构造Hessian与Laplacian图并赋之不同的权重,在学习中利用每个特征的流形结构信息,保持全局标签的一致性,使得分类更加准确.
由于传统基于图拉普拉斯正则的半监督特征选择算法在标签数据较少的情况下,缺乏对新数据点的推断性能及对数据中异常值较差的鲁棒性.
因此,本文提出基于Hessian正则的自适应损失半监督稀疏特征选择框架.
首先分析了Hessian正则具有更丰富的零空间,能较好地利用数据固有的局部几何特性,有利于学习函数值随测地距离线性变化的函数[22-24].
此外,多数半监督特征选择算法采用l2范数作为损失函数来度量预测标签误差,但具有显著损失的异常值将导致模型表现比较敏感,鲁棒性较差.
使用l1范数作为损失函数,可以在一定程度上缓解对异常值的敏感度,但是又会对小损失比较敏感[25].
为了缓解基于l1范数和l2范数损失函数的缺点,本文采用自适应损失来度量预测标签的误差,通过自适应近邻分配策略,得到最优Hessian矩阵,增强特征选择模型的鲁棒性.
此外,使用l2,p范数作为隐式正则项约束投影矩阵W,通过设置不同的p值,可以获得更多的稀疏回归系数.
1相关工作本节在介绍基于Hessian正则的自适应损失半监督稀疏特征选择框架(AHFS)之前,表1中模型中使用的符号含义.
矩阵Q、QT、Tr(Q)分别表示矩阵的转置、矩阵的迹.
X∈Rn*d表示数据样本矩阵,其中xi表示第i个数据样本.
Y表示训练样本的标签矩阵,F表示预测标签矩阵,D、G则表示对称矩阵.
表1符号的定义符号含义序号变量名称n样本数HHessian矩阵d特征维度Y标签矩阵c样本类别G对称矩阵M局部流行结构W投影矩阵φ映射函数F预测标签矩阵对于任意矩阵M∈Rm*n,用向量m(i,:)表示矩阵的第i行,m(:,j)表示第j列.
l2,p范数的计算公式如下:∥M∥2,p=m∑i=1(n∑j=1|mij|2)p21p=(m∑i=1m(i,:)p2)1p.
(1)1.
1样条回归半监督特征选择文献[18]通过构造类内图矩阵充分利用标签数据的判别性信息,为利用大量未标记数据潜在的局部几何特性,使用Sobolev空间中开发的样条来插入散在几何设计中的数据.
通过组合类内和样条散射朱建勇等:基于Hessian正则的自适应损失半监督特征选择3矩阵,保持数据的局部结构和潜在的几何特性.
然后,利用图嵌入的思想,并引入l2,1范数约束投影矩阵W,计算最优的投影矩阵W,目标函数如下:argminWTr(WMW)+λ∥W∥2,1s.
t.
WTW=I.
(2)式中M=SW+Ξ,SWΞ分别表示类间矩阵和样条散射矩阵,Ξ=XζXT且ζ∈Rn*n表示每对样本的局部相似性.
而类间矩阵则通过下式计算:SW=c∑j=11Nj∑X∈ξj(xmj)(xmj)T.
(3)式中mj表示第j类的平均向量,c表示样本数据的总类别.
1.
2优化迹比准则半监督特征选择文献[26]分析特征选择中的迹比准则,提出一种基于噪声不敏感迹比准则的半监督特征选择方法(TRCFS).
解决降维中迹比准则倾向于选择方差很小的特征的问题.
首先,通过优化迹比准则进行缩放预处理,利用离群点检测的标签传播方法获取未标记数据的软标签.
然后,构建了类内矩阵、类间矩阵,最后,通过噪声不敏感跟踪比准则进行特征选择,目标函数为:argminWTr(WTSbW)/Tr(WTSωW).
(4)根据标签矩阵F可以分别计算类矩阵Sω、Sb:Sω=1nX(BFcDF)XT.
(5)Sb=1nX(FcDFTc1nB11TBT)XT.
(6)式中Fc表示F的前c列,B、D为对角矩阵.
1.
3图嵌入半监督特征选择基于图拉普拉斯的半监督特征选择算法,分为2个步骤:根据样本数据,通过调整近邻构造相似图;然后,再根据构造的相似图进行特征选择.
Q={V,S}表示构造的无向权重图,V表示顶点集合,S=(wij)n*n∈Rn*n表示相似矩阵,元素wij表示两个数据点xi与xj之间的相似度.
通常,相似度矩阵S在具有高斯函数的原始高维特征空间中是预定的,即wij=exp(∥xixj∥222δ2),ifxi∈Nk(xj)orxj∈Nk(xi)0,otherwise(7)式中Nk(xi)表示xi在原始的高维空间k近邻集合.
基于图论,则图拉普拉斯矩阵L=ZS,Z中的元素为Zii=∑jSij.
此外,假定样本数据点xi的标签为yi=j,则定义二进制标签矩阵Y的元素Yij=1,否则Yij=0.
传统的基于图拉普拉斯算子的半监督特征选择方法是为了解决以下优化问题:argminW,FTr(FTLF)+Tr((FY)TU(FY))+XTWF2F+λQ(W).
(8)式中U是对称阵.
等式的第一项和第二项有利于预测标签矩阵F在流行空间尽可能的平滑,第三项则为标签适应度的损失项,度量预测标签的误差,最后一项表示投影矩阵W的稀疏性约束,保证不同特征之间的区分性,有利于特征子集的选取.
2基于Hessian正则的自适应损失半监督特征选择2.
1目标函数设计由于基于图谱的半监督特征选择算法通常依赖Laplacian矩阵的分解获取全局聚类结构信息,需要耗费大量的时间和空间,并且,Laplacian算子映射能力不足,因此,本文拟采用Hessian算子探索数据的局部结构[19],首先构造适合半监督特征选择的正则化函数,假定流行结构M,定义实值函数φ:M→R,定义函数φ的能量函数为:E(φ)=∫∥abφ∥2TxMTxMdV(X)(9)式中abφ表示函数φ的二次协变导数,TxM表示流行M上点x处的局部切线空间,dV(X)表示流形M上的自然体积元.
流行结构M的标准坐标,促使能量函数E(φ)容易度量.
由于在点x附近的流形与像欧几里德相似,可以得到:∥abφ∥2TxMTxM=l∑r,s=1(2φxrxs)2(10)因此,在给定点x处的二次协变导数的范数等价于函数φ标准坐标下Hessian正则的Frobenius范数.
并且,评估局部切线子空间,其低维子空间的l个主导特征特征向量与TxiM的正交基一致.
然后,确定点xj∈Nk(xi)的坐标xr,得到:2φxrxsxi≈k∑t=1Z(i)rstft(11)式中Z(i)rst是样本xi的局部Hessian算子,且可以用线性最小二乘拟合一个二阶多项式来计算.
然后,将法坐标系中的二阶多项式p(i)(x)拟合为{φ(xt)}kt=1:p(i)(x)=φ(xi)+l∑r=1Hrxr+l∑r=1l∑s=rNrxrxs(12)式中零阶项固定在φ(xi).
在邻域大小趋于零的极限下,将p(i)(x)变为φ在xi处的二阶泰勒展开式,得4控制与决策到:Hr=φxrxi,Nrs=122φxrxsxi(13)便于拟合多项式,使用标准的线性最小二乘,得到:argminv∈RPk∑t=1((φ(xt)φ(xi))(v)t)2(14)式中∈Rk*P表示设计矩阵且P=m+m(m+1)/2,ψ表示相应的基函数,其是xi二阶的法向坐标的单项式.
假设φ(xα)=fα,因此,φ在点xi处的Hessian的Frobenius范数的估计等效为:∥abφ∥2≈l∑r,s=1(k∑α=1Z(i)rsαfα)2=k∑αβ=1fαfβH(i)αβ(15)式中H(i)αβ=∑lr,s=1Z(i)rsαZ(i)rsβ,能量函数可以近似为:E(φ)=n∑i=1∑α∈Nk(xi)∑β∈Nk(xi)fαfβH(i)αβ=FTHF.
(16)因此,本文构造AHFS的目标函数为:minW,F,bTr(FTHF)+(XTW+1bTFτ+λ∥W∥p2,p)s.
t.
Fl=Yl.
(17)式中W表示投影矩阵;F=[Fl;Fu]表示标签矩阵,由已知样本标签Fl和未知样本标签Fu组成;1表示元素为1的列向量;b表示基础向量;系数和λ表示平衡不同项的两个参数.
鉴于投影矩阵W的行元素与样本X的特征属性相对应,因此,通过计算投影矩阵W非零行元素之和,按照行元素和的排序进行特征子集的选取.
2.
2目标函数求解由于AHFS函数(17)含有l2,p范数,因此,定义Γ(W)=∥W∥p2,p,对Γ(W)关于W求偏导数,得到:Γ(W)W=2DW.
(18)式中D∈Rd*d是一个对称矩阵,矩阵中的第i个元素为:dii=p2wip22.
(19)AHFS函数的第二项,引入基于l1范数和l2范数之间的自适应损失函数,其利用基于矩阵范数的损耗测量的优点,对损耗较小或较大的数据具有更强的鲁棒性.
对于自适应损失项的优化,假定矩阵Z=[z1,z2zn]T∈Rn*n,定义其损失函数为:fτloss=∥Z∥τ=∑i(1+τ)zi22∥zi∥22+τ.
(20)τ是损失函数的自适应参数.
由于每个矩阵的行向量可以单独计算且互不影响,令qi(W,F,b)=xTiW+bTfi,则自适应损失函数项可以表示为:XTW+1bTFτ=n∑i=1∥qi(W,F,b)∥τ.
(21)对式(21)关于{W,F,b}求偏导,并令偏导数为0,得到:2n∑i=1giqi(W,F,b)qi′(W,F,b)=0.
(22)式中gi=(1+τ)∥qi(W,F,b)∥2+2τ2(∥qi(W,F,b)∥2+τ)2.
因此,损失函数可以转为求下式:n∑i=1gi∥qi(W,F,b)∥22=Tr((XTW+1bTF)TG(XTW+1bTF)).
(23)式中G是对称矩阵,矩阵中的第i个元素为:gii=(1+τ)xTiW+bTfi2+2τ2(xTiW+bTfi2+τ)2.
(24)因此,解决目标函数(17)的关键步骤是解决以下问题:minW,F,b(Tr((XTW+1bTF)TG(XTW+1bTF))+λTr(WTDW))+Tr(FTHF)s.
t.
Fl=Yl.
(25)因此,对式(25)关于b求偏导,并令偏导数为0,得到:b=11TG1FTG111TG1WTXG1.
(26)将等式(26)代入(25),关于W求偏导,并令偏导数为0,得到:W=(XMXT+2λD)1XMF=CF.
(27)式中M=G11TG1G11TG、C=(XMXT+2λD)1XM.
将等式(26)、(27)代入等式(25),得到:argminW,F,bTr(FT(H+MMXTC)F)s.
t.
Fl=Yl.
(28)式中F=[Fl;Fu],假定Z=(H+MMXTC),并将矩阵Z按照已知标签样本个数为限定行分为4*4的块矩阵,得到:argminW,F,bTr([FlFu]T[ZllZluZulZuu][FlFu])s.
t.
Fl=Yl.
(29)朱建勇等:基于Hessian正则的自适应损失半监督特征选择5对式(29)关于Fu求偏导数,并令偏导数为0,得到:Fu=Z1uuZulFl.
(30)通过上述步骤迭代求解,求得最优矩阵W、F和b.
综上所述,AHFS目标函数的迭代求解过程如下.
step1:输入训练集X,标签矩阵Yl,选择的特征数k,平衡参数和λ;step2:计算初始的Hessian正则矩阵H,初始化对称矩阵D、G;step3:Repeat;step4:通过等式(30)计算Fu,即得到软标签矩阵F;step5:根据等式(26)计算b,根据等式(27)计算投影矩阵W;step6:更新对称矩阵D,G;step7:更新Hessian正则矩阵H;step8:untilConverge;step9:输出投影矩阵W,选择的特征子集{r1,r2,rk}.
2.
3算法复杂性本文提出AHFS算法的计算复杂度,如迭代求解过程所示,主要分为Hessian正则的计算与优化、投影矩阵以及标签矩阵的计算.
其中,第一步中Hessian正则的计算复杂度为O(n3).
在固定Hessian正则标签预测步骤中,主要的计算成本是更新W和F时涉及的矩阵逆运算.
更新W,令Q=XMXT+2λD、R=XMF,其计算消耗分别为O(nd2)、O(ndc),因此,W可以重新表示为W=Q1R.
矩阵求逆的计算消耗是O(d3).
然而,根据文献[27]可以避免阵求逆运算的消耗.
由于更新W等同于解决以下的更新优化问题,通过梯度下降迭代可以求解最优W,即,这使得矩阵逆的计算消耗降低为O(Td2c),其中T为迭代次数.
采用同样的策略优化标签矩阵F.
因此,最优W、F的总计算消耗降低为O(nd2)+O(Td2c).
综上,本文提出AHFS总的计算消耗为O(Tn3)+O(nd2)+O(Td2c).
3实验及分析本节将(AHFS)与流行的半监督特征算法相比较,并分析了算法选择特征的性能.
3.
1数据集本次实验共选择了6个数据集进行实验,包括3个UCI数据集,分别为Heart、Letter以及Vote;1个图片数据集(COIL20),其包含对20个物体处理后的1440张图片,每隔5度拍摄一张图片,因此,每个物体有72张图片;1个小圆蓝色细胞瘤(SRBCT)基因数据集,由83个样本组成,即8个Burkitt淋巴瘤(BL),33个尤文肉瘤(EWS),22个神经母细胞瘤(NB)和20个横纹肌肉瘤(RMS),每个样本由2308个基因表达;1个手写图片(USPS)数据集,由10个数字的9298个图像组成,每个数字图像的大小为16*16.
表2总结了这6个数据集的描述.
表2数据集描述名称样本数特征数类别Heart270132Letter20001626Vote435162COIL201440102420SRBCT8323084USPS9298256103.
2分类准确度评价标准定义了fi和yi为给定样本xi的预测标签和样本自带类标签,分类准确度(ACC)公式如下:ACC=n∑i=1δ(yi,map(fi))n(31)其中,n表示样本数,δ(x,y)为比较函数,x=y时,函数值为1,否则为0.
3.
3算法比较对于每个数据集,随机选择50%作为训练集,剩余50%为测试集.
在训练集上,各特征选择算法选择出相应的样本特征,然后在测试集中仅保留筛选出的特征,由支持向量机(SVM)对测试样本进行预测,并计算预测样本的正确率,得出相应的实验分类结果.
本次实验中选择5种对比算法,分别是1种有监督特征选择算法:高效的鲁棒特征选择算法(RFS)[7],1种无监督特征选择算法:拉普拉斯的得分法(LaplacianScore)[12];三种半监督特征选择算法:局部敏感半监督特征选择(LSDF)[30]、基于相关性和冗余标准的半监督特性选择(RRPC)[31]、重新调节线性回归的半监督特征选择算法(RLSR)[32].
为保证对比实验的公平性,选择从训练集中的每个类内随机选择不同比例的样本作为标签样本,其余样本作为无标记样本.
同时,在与有监督特征选择算法RFS比较时,RFS仅利用有标签样本选择特征子集;与无监督特征选择算法LaplacianScore对比时,选择比例相同的无标记样本进行特征选择.
由于随机地选择样本,这可能导致分类准确性不稳定.
因此,每次实验进行20次,以获得具有高可靠性的实验结果,并采用平均值作为对比的结果.
对于RFS、6控制与决策246810120.
50.
550.
60.
650.
70.
750.
8ACCRFSLapSRRPCLSDFRLSRAHFS(a)Heart24681012141600.
10.
20.
30.
40.
50.
60.
70.
8ACCRFSLapSRRPCLSDFRLSRAHFS(b)Letter2468101214160.
860.
880.
90.
920.
940.
960.
98ACCRFSLapSRRPCLSDFRLSRAHFS(c)Vote204060801001201401601802000.
20.
30.
40.
50.
60.
70.
80.
91ACCRFSLapSRRPCLSDFRLSRAHFS(d)COIL20204060801001201400.
30.
40.
50.
60.
70.
80.
9ACCRFSLapSRRPCLSDFRLSRAHFS(e)SRBCT102030405060700.
40.
450.
50.
550.
60.
650.
70.
750.
80.
850.
9ACCRFSLapSRRPCLSDFRLSRAHFS(f)USPS图1:选择不同特征数的分类精度LaplacianScore、LSDF、RLSR中的参数λ,在集合{103,102,101,1,102,103}搜索确定最优参数值.
首先在六个数据集上,逐渐增加选择的特征个数,按公式(31)计算ACC,得到的结果如图1.
从图1可以看出,本文提出的半监督特征选择算法优于所比较的特征选择算法.
一方面,随着选择的特征数的增加,AHFS的分类精度也会随之提高.
另一方面,AHFS几乎在选取数据集上的性能优于RFS,这表明半监督方法可以利用未标记的数据固有的结构信息改善有监督方法的性能,这验证了半监督特征选择方法的有效性.
注意,重复实验多次,发现W行元素和值发生了变化,但各行元素和的排序不会发生变化,所获得的的特征子集是一样.
因此,本文所提方法所获得的特征在同一正则化参数下具有稳定性.
此外,为分析不同比例的标记训练数据对AHFS分类性能的影响,我们将训练集中的数据,标签数据的比率值分别设为{1%,5%,10%,20%,30%,50%}.
在数据集Heart,设置对比模型的参数为最优参数,AHFS的平衡参数为1,同时,选择的特征子集数为6,结果如表3所示.
在数据集USPS中,选择的特征维度为25,实验结果如表4所示,表中的黑色数据为相同标签比例条件下,对比算法中的最优结果.
表3Heart集不同标记训练数据比率的比较(平均值±标准差)模型1%5%10%20%30%50%LSDF56.
66±0.
7357.
34±1.
1661.
35±2.
1573.
20±2.
7676.
54±2.
4480.
70±2.
64RLSR54.
84±0.
6456.
85±1.
4463.
20±2.
1971.
41±2.
0873.
95±2.
4878.
39±2.
75RRPC55.
61±0.
7158.
54±1.
8965.
86±2.
8672.
12±2.
6978.
67±2.
3881.
92±2.
14AHFS57.
22±0.
4561.
60±0.
9268.
85±2.
4976.
97±1.
8379.
87±1.
9383.
24±2.
38表4USPS集不同标记训练数据比率的比较(平均值±标准差)朱建勇等:基于Hessian正则的自适应损失半监督特征选择7模型1%5%10%20%30%50%LSDF43.
39±1.
1673.
64±1.
1973.
85±0.
8877.
04±1.
1477.
83±1.
8277.
85±1.
32RLSR49.
81±1.
3875.
67±1.
1270.
51±1.
1374.
07±1.
3173.
79±1.
1676.
99±1.
05RRPC55.
53±1.
4867.
28±0.
9274.
06±1.
0977.
18±1.
5276.
60±1.
2579.
11±1.
39AHFS59.
97±0.
6380.
54±1.
3584.
36±1.
0085.
37±1.
3084.
52±1.
0885.
73±1.
32对比表3和表4,AHFS的平均分类精确率高于所对比模型.
一般来说,拥有的标签数据越多,可获得更好的准确性.
这表明,如果有更多的标记数据可用,模型能够选择具有更高质量的特征.
如果标签数据较少,AHFS的能够选择出判别性强的特征子集.
例如在USPS数据集,只有20%的标签数据,模型的ACC结果为84.
36,明显的优于对比模型.
为说明本文方法应用的广泛性,本文也以深度特征作为输入进行仿真验证.
深度特征是由完全训练好的卷积神经网络处理产生的特征.
严格按照文献[21],卷积神经网络共有5个卷积层和3个权连接层,通过ImageNet集来调节卷积神经网络的参数[28],然后将COIL100数据集(包含100个类,每个类别72张,本文中选取前40个类,每个类别选取40张)、SUN397(108类,754张)[29]作为卷积神经网络的输入,以最后权连接层输出4096维度的向量作为深层特征,得到深度特征集CNN-COIL、CNN-SUN.
在深度特征集CNN-COIL、CNN-SUN进行验证,结果如表5.
表5基于深度特征的(平均值±标准差)模型BaselineRRPCLSDFRLSRAHFSCNN-COIL91.
17±0.
1492.
23±0.
2293.
17±0.
3692.
70±0.
4393.
54±0.
13CNN-SUN42.
73±0.
2443.
25±0.
3244.
37±0.
1542.
41±0.
1244.
08±0.
20通过实验,AHFS算法处理后在数据集CNN-COIL的性能提升了2.
27%,在数据集CNN-SUN提升了1.
35%,证明AHFS算法在深度空间上依然有着良好的性能.
3.
4平衡参数敏感性分析本文提出的AHFS模型包含两个平衡参数、λ,先将自适应参数设置为τ=0.
1,p=1.
通过网格搜索策略,分析平衡参数在范围{103,102,101,1,102,103}内不同取值对AHFS算法性能的影响,图2、图3和图4分别表示、λ在数据集Heart、Letter、USPS对模型AHFS的影响.
50100060100100070ACC1010080110λ1900.
10.
10.
010.
010.
0010.
001图2:、λ在Heart集对AHFS的影响60100065100701000ACC107510080110λ1850.
10.
10.
010.
010.
0010.
001图3:、λ在Letter集对AHFS的影响401000601001000ACC1010080110λ11000.
10.
10.
010.
010.
0010.
001图4:、λ在USPS集对AHFS的影响从三个数据集的实验结果中观察到:一方面,本文提出的方法表现出在较宽范围内平衡参数和λ不同值的影响,参数的不同组合可导致选择不同的特征子集.
另一方面,由于数据集相关的属性的不同,似乎没有类似的规则可以为所有应用模型确定最佳参数.
8控制与决策051015202530Iteration10152025303540455055Objectivefunctionvalue(a)Heart051015202530Iteration6080100120140160180200220240260Objectivefunctionvalue(b)Letter051015202530Iteration10203040506070Objectivefunctionvalue(c)Vote051015202530Iteration15202530354045Objectivefunctionvalue(d)COIL20051015202530Iteration101520253035404550Objectivefunctionvalue(e)SRBCT051015202530Iteration180190200210220230240250Objectivefunctionvalue(f)USPS图5:实验中使用的所有数据集上,AHFS的收敛曲线3.
5复杂性分析在文章2.
3节分析AHFS的复杂度,本节以数据集Vote、COIL20、USPS为例,分别从三个数据集的原始特征中选取10、500、100个特征,计算各算法的时间消耗,结果如表6.
表6选择对应特征的时间消耗模型RRPCLSDFRLSRAHFSVote1.
640.
991.
391.
55COIL2011.
089.
039.
7810.
14USPS2630.
421460.
141840.
522183.
83如表6所示,在三个数据集上LSDF的计算消耗都是最低,RRPC的消耗最大.
虽然AHFS涉及了Hessian的更新计算,理论上增加了计算量,但在迭代求解的过程中,该算法收敛速度快,只需几次迭代即可收敛.
因此,一定程度上减小了算法的计算消耗.
3.
6收敛性分析本文提出了一种有效递归迭代算法求解目标函数的最优解,通过实验分析AHFS的收敛速度.
在所有数据集上,设置平衡参数和λ的值为1,目标值的变化曲线如图5所示.
由图5所得.
在6个公开的数据集上实验,迭代30次内达到了收敛.
在数据集Letter、SRBCT、USPS迭代10次内可以达到收敛,证明了该迭代优化算法的快速性和有效性.
3.
7基因学应用随着生物信息学的发展,为生物和生物医学研究提供了大量的基因组和蛋白质组数据,因此,半监督特征选择的研究对致病原因的分析、诊断发挥着重要的作用.
例如,在基因组学中,DNA微阵列数据可以在实验中测量数千个基因的表达水平,基因表达数据通常包含大量的基因,但样本数量较少.
然而,一种特定的疾病或生物功能通常与几个基因有关.
以急性淋巴细胞白血病(ALL)与急性髓细胞白血病(AML)的患者数据信息来评估每个基因与病症的相关性.
选取72个患者,其中急性淋巴细胞白血病有47人,急性髓细胞白血病有25人,分别选取0.
2比率作为已知病人,其余病人信息作为未知案例,并且每个患者携带7129个基因表达.
通过半监督特征选择方法获取相关性强的基因子集,依据基因子集可以有效地判断病症的类型.
选择不同基因特征数对应的诊断情况如图6所示.
204060801001201401600.
860.
870.
880.
890.
90.
910.
920.
930.
940.
950.
96ACCRRPCTRCFSAHFS图6:选择不同基因特征子集的诊断率由图6所示,通过AHFS算法选择的基因子集,判断出病症类型的准确率高于对比的选择模型.
因此,在白血病等疾病的基因组学中,本文提出的算法可以较好地利用患者的患病信息,获得相关性强的基因子集可以有效地判断患病的类型.
4实验结论本文提出了一种基于Hessian正则的自适应损失半监督稀疏特征选择框架(AHFS).
首先,AHFS能够较好地保留了数据的局部流形结构,提高了对有限标签信息的利用.
其次,AHFS融合了自适应损失,提升了模型对具有较小或者较大损失的数据的鲁棒性,增强线性映射能力并通过l2,p范数稀疏了投影矩阵,加强了特征之间的区分性,有利于选择判别性强的特征子集.
然后,通过一种高效的替代优化算法解决了提出的挑战性问题,并通过实验验证了算法的收敛性.
其次,在公开数据集上的实验结果说明了所提出的方法的优于常用的特征选择算法.
通过在白血病基因学的实例应用,验证了本文算法在实际应用中的有效性.
最后,以卷积神经网络处理的深度特征,验证了本文算法在深度空间的性能.
朱建勇等:基于Hessian正则的自适应损失半监督特征选择9参考文献(References)[1]HouCP,NieFP,LiX,etal.
JointEmbeddingLearningandSparseRegression:AFrameworkforUnsupervisedFeatureSelection[J].
IEEETransCybernetics,2013,44(6):793-804.
[2]吴成东,卢紫微,于晓升.
基于加权随机森林的图像超分辨率算法研究[J].
控制与决策,2019,34(10):2243-2248.
(WuCD,LuZW,YuXS.
Imagesuperresolutionreconstructionalgorithmbasedonweightedrandomforest[J].
ControlandDecision,2019,34(10)2243-2248.
)[3]付晓,沈远彤,李宏伟,程晓梅.
基于半监督编码生成对抗网络的图像分类模型[J/OL].
自动化学报:[2019-10-25].
https://doi.
org/10.
16383/j.
aas.
c180212.
(FuX,ShenYT,LiHongwei,etal.
Asemi-supervisedencodergenerativeadversarialnetworksmodelforimageclassification[J].
Journalofautomation.
)[4]HanY,YangY,YanY,etal.
Semisupervisedfeatureselectionviasplineregressionforvideosemanticrecognition[J].
IEEETransactionsonNeuralNetworksandLearningSystems,2015,26(2):252-264.
[5]JiangYG,YeG,ChangSF,etal.
Consumervideounderstanding:Abenchmarkdatabaseandanevaluationofhumanandmachineperformance[C].
Procofthe1stACMInternationalConferenceonMultimediaRetrieval.
Italy,ACM,2011:1-8[6]WangS,YangY,MaZ,etal.
Actionrecognitionbyexploringdatadistributionandfeaturecorrelation[C].
IEEEConferenceonComputerVisionandPatternRecognition.
IEEE,2012:1370-1377.
[7]NieF,HuangH,CaiX,etal.
EfficientandRobustFeatureSelectionviaJointl2,1-NormsMinimization[C].
Procofthe24thAdvancesinNeuralInformationProcessingSystemsConferenceonNeuralInformationProcessingSystems.
2010:1813-1821.
[8]刘宇琦,赵宏伟,王玉.
一种基于QPSO优化的流形学习的视频人脸识别算法[J/OL].
自动化学报:[2019-10-25].
https://doi.
org/10.
16383/j.
aas.
c180359.
(LiuYQ,ZhaoHW,WangY.
VideoFaceRecognitionMethodBasedonQPSOandManifoldLearning[J].
Journalofautomation.
2019)[9]MooreB,Principalcomponentanalysisinlinearsystems:Controllability,observability,andmodelreduction[J].
IEEETransactionsonAutomaticControl,1981,26(1):17-32.
[10]ZhuX,HuangZ,YangY,etal.
Self-taughtdimensionalityreductiononthehigh-dimensionalsmall-sizeddata[J].
PatternRecognition,2013,46(1):215-229.
[11]GuQ,LiZ,HanJ.
GeneralizedFisherscoreforfeatureselection[C].
Procofthe27thConferenceonUncertaintyinArtificialIntelligence.
Barcelona,2011:266-273.
[12]HeX,CaiD,NiyogiP.
Laplacianscoreforfeatureselection[C].
Advancesinneuralinformationprocessingsystems.
Vancouver:2006:507-514.
[13]ShiL,DuL,ShenYD.
Robustspectrallearningforunsupervisedfeatureselection[C].
IEEEInternationalConferenceonDataMining.
Shenzhen:IEEE,2014:977-982.
[14]LuoY,TaoD,XuC,etal.
Vector-valuedmulti-viewsemi-supervsedlearningformulti-labelimageclassification[C].
27thAAAIConferenceonArtificialIntelligence.
Bellevue,2013:647–653[15]刘建伟,刘媛,罗雄麟.
半监督学习方法[J].
计算机学报,2015(8):1592-1617.
(LiuJW,LiuY,andLuoXL.
Semi-supervisedlearningmethods[J].
ChineseJournalofComputers,2015(8):1592-1617.
)[16]ZhaoZ,LiuH.
Semi-supervisedfeatureselectionviaspectralanalysis[C].
ProceedingsoftheSIAMinternationalconferenceondatamining.
2007:641-646.
[17]KalakechM,BielaP,MacaireL,etal.
Constraintscoresforsemi-supervisedfeatureselection:Acomparativestudy[J].
PatternRecognitionLetters,2011,32(5):656-665.
[18]HanY,YangY,YanY,etal.
Semisupervisedfeatureselectionviasplineregressionforvideosemanticrecognition[J].
IEEETransactionsonNeuralNetworksandLearningSystems,2015,26(2):252-264.
[19]MaZ,NieFP,YangY,etal.
Discriminatingjointfeatureanalysisformultimediadataunderstanding[J].
IEEETransactionsonMultimedia,2012,14(6):1662-1672.
[20]XuZ,KingI,LyuMRT,etal.
Discriminativesemi-supervisedfeatureselectionviamanifoldregularization[J].
IEEETransactionsonNeuralnetworks,2010,21(7):1033-1047.
[21]ZhangL,ZhangD.
Visualunderstandingviamulti-featuresharedlearningwithglobalconsistency[J].
IEEETransactionsonMultimedia,2016,18(2):247-259.
[22]EellsJ,LemaireL.
Selectedtopicsinharmonicmaps[M].
AmericanMathematicalSoc.
1983:23-80[23]DonohoDL,GrimesC.
Hessianeigenmaps:Locallylinearembeddingtechniquesforhigh-dimensionaldata[J].
ProceedingsoftheNationalAcademyofSciences,2003,100(10):5591-5596.
[24]KimKI,SteinkeF,HeinM.
Semi-supervisedregressionusingHessianenergywithanapplicationtosemi-superviseddimensionalityreduction[C].
AdvancesinNeuralInformationProcessingSystems.
Vancouver:2009:979-987.
[25]NieFP,WangH,HuangH,etal.
Adaptivelossminimizationforsemi-supervisedelasticembedding[C].
23thInternationalJointConferenceonArtificialIntelligence.
2013.
[26]LiuY,NieFP,WuJ,etal.
Efficientsemi-supervisedfeatureselectionwithnoiseinsensitivetraceratiocriterion[J].
Neurocomputing,2013,105:12-18.
[27]WangD,NieFP,HuangH.
Large-scaleadaptivesemi-supervisedlearningviaunifiedinductiveandtransductivemodel.
ACMSIGKDD,NewYork,USA,10控制与决策2014:482–491.
[28]SaenkoK,KulisB,FritzM,etal.
AdaptingVisualCategoryModelstoNewDomains[C].
Europeanconferenceoncomputervision.
Berlin,2010:213-226.
[29]ZhouB,LapedrizaA,XiaoJ,etal.
LearningdeepfeaturesforscenerecognitionusingPlacesDatabase[C].
Advancesinneuralinformationprocessingsystems.
2014:487-495.
[30]ZhaoJ,LuK,HeX.
Localitysensitivesemi-supervisedfeatureselection[J].
Neurocomputing,2008,71(10-12):1842-1849.
[31]XuJ,TangB,HeH,etal.
Semisupervisedfeatureselectionbasedonrelevanceandredundancycriteria[J].
IEEEtransactionsonneuralnetworksandlearningsystems,2016,28(9):1974-1984.
[32]ChenX,YuanG,NieF,etal.
Semi-supervisedfeatureselectionviarescaledlinearRegression[C].
IJCAI.
Melbourne:2017:1525-1531.
作者简介朱建勇(1977),男,副教授,博士,从事从事复杂工业过程控制与优化,大数据分析等研究,E-mail:zhujyemail@163.
com;周振辰(1993),男,硕士生,从事从事机器学习、数据挖掘等研究,E-mail:zhenchenz@163.
com.
杨辉(1965),男,教授,博士生导师,从事复杂系统建模、控制与优化、大数据分析等研究,E-mail:yhshuo@263.
net.
聂飞平(1977),男,教授,博士生导师,从事机器学习以及相关应用领域(模式识别,数据挖掘,图像处理,信息检索等)的研究,feipingnie@gmail.
com.

展开全文

特征递归迭代相关文档

基于蒙特卡洛方法的高斯混合采样粒子滤波算法研究(1)

方程递归迭代

ym.163.com免费企业邮箱 sns网站有哪些最近两年哪些SNS网站比较火正大天地网正大光明是什么数字 joomla安装MICROSOFT APPLOCALE 怎么安装 discuz论坛申请自己怎么申请论坛？网页计数器怎么用DW做网页计数器 w3c验证“W3C代码校验”的作用配送区域美团外卖配送距离是多少？.netcms芜湖市教育局网搜索引擎优化教程搜索引擎优化视频教程 SEO常用统计表格有哪些虚拟主机代理什么是域名猫咪av永久最新域名南通服务器租用香港服务器租用99idc 江西服务器租用赵容 pw域名 59.99美元名片模板psd info域名服务器架设 eq2 铁通流量查询申请个人网站韩国名字大全服务器硬件防火墙超级服务器域名dns 1元域名更多

特征递归迭代

wordpress外贸企业主题 wordpress经典外贸企业建站主题

LayerStack$10.04/月（可选中国香港、日本、新加坡和洛杉矶）高性能AMD EPYC (霄龙)云服务器，

spinservers：圣何塞物理机7.5折，$111/月，2*e5-2630Lv3/64G内存/2T SSD/10Gbps带宽