!
!
/引言!
"#匿名网络是一个由全球志愿者维护的各自匿名网络所组成的大型分布式匿名通信网络!
其核心技术是美国海军研究室开发的洋葱路由系统!
设计初衷是保护政府机关的数据通信隐私"!
"#用户通过连接一系列虚拟通道在通信的源端与目的端之间建立间接的数据链路!
使得包括个人和机构在内的用户在互联网中的数据传输行为匿名化$%&"由于该技术能够有效规避网络监管!
成为访问受限网段的有效措施"洋葱路由技术提供的身份匿名性和数据安全性使得'"#网络成为网络内容犯罪的温床"同时!
区块链#虚拟数字货币等技术的发展为网上非法交易带来便利!
更使得包括!
"#网络在内的暗网成为互联网中的法外之地!
产生越来越多涉及黄#暴#恐的非法信息和非法交易"鉴于此!
本文研究!
"#网络流量的分析和识别"对于给定的真实网络数据!
本研究的目标是鉴别其中流量是通过普通网络通信数据还是!
"#流量"在有效识别!
"#流量基础上!
本文进一步研究!
"#通信行为分类!
包括浏览网页#邮件服务#即时通信#流媒体和),)通信等"0相关工作-.
/!
"#流量识别近年来!
研究人员提出了若干解决方案来识别!
"#网络中产生的数据0,&"1234567+64等人$8&对网络中9"#客户端与9"#网络入口节点之间的通信进行时序分一种基于机器学习的!
"#网络识别探测技术张玲.
!
卫传征.
!
林臻彪.
!
段琳琳,$.
:北京赛博兴安科技有限公司!
北京郑州大学信息工程学院!
河南郑州.
@文献标识码"6123".
;:.
A.
=BCD:EFFG:;,=@HB@:,;;B=中文引用格式"张玲!
卫传征!
林臻彪!
等:一种基于机器学习的9"#网络识别探测技术$I&:电子技术应用B-PUg"#hU#MYYE[FNPGP#MUPXTZG"#WMVM]]VE[MUE"GFTP["WPLM#XU"U#M[PgLPGULPZM#PXPVEfP#PXTZ9"#FZFUPW:i"gPfP#jMGEG[#PMFEGNGRWTP#"Y[ZTP#[#EW!
EGMVFM#PRUEVESEGN9"#U"#PWMEGMG"GZW"RFgLEVP[M##ZEGN"RUULPE#[#EWPF"#WMhPEVVPNMVU#MGFM[UE"GF:6FM["RGUP#WPMFR#PjULEF]M]P#]#PFPGUFMWPUL"XMTVPU"EXPGUEYZ9"#U#MYYE[FMGXULP#PTZ#P["NGESP#PVMUPX9"#L"FUF:9LPWPUL"X]#"]"FPFFPfP#MVN#"R]F"YYPMUR#PFPkU#M[UPXY#"WGPUg"#hU#MYYE[MGX#PF"#UU"WM[LEGPVPM#GEGNMVN"#EULWU"PfMVRMUPYPMUR#PPYYP[UEfPGPFF:ck]P#EWPGUFEG#PMVg"#VXXMUMFPUXPW"GFU#MUPULMUULP]#"]"FPXWPUL"XEFMTVPU"XEFUEGNREFL9"#YV"gFY#"WG"#WMVU#MYYE[FMFgPVVMF#P["NGESPULPhEGX"YM[UEfEUZEG9"#NPGP#MUPXTZXEYYP#PGUG"#WMVM]]VE[MUE"GF:89:!
-7;5"XM#hGPUXPUP[UE"G%9"#%["WWRGE[MUE"GPGUEUZ#P["NGEUE"G%WM[LEGPVPM#GEGN等人')提出!
并只取得了@0的正确率"该研究领域接下来获得了极大的重视和发展!
并在不同的场景环境下取得了超过!
A0准确率!
相关研究见参考文献'B)#'!
)"访问*+,网站极大地依赖洋葱网络中的隐藏服务目录查询协议'CA)!
而该协议被证明容易被仅具有低带宽*+,中继节点的攻击者进行服务枚举攻击'CC)!
从而测量*+,网站等洋葱服务的活跃程度"已有相关工作通过枚举攻击方法来研究洋葱服务的生态'C.
)"当然!
该类攻击的威胁可能随着相关协议的更新得到缓解"上述研究工作主要关注两类问题$9C:有效识别互联网中*+,节点之间传输的流量%9.
:对于*+,通信流量所承载的应用数据!
识别其应用服务类型"与上述研究类似!
本文通过机器学习方法来识别网络中的*+,流量!
并进一步识别*+,流量中承载的B类应用数据"实验表明!
本文提出的方法能够取得较高的预测准确率"!
本文方法本文首先通过设置网络探针捕获网络中的流量数据!
进而对流量中混杂的数据帧进行组流!
将属于相同数据流的帧按照协议和帧顺序进行恢复"然后以数据流为样本!
提取其机器学习分类特征!
训练分类器!
并应用训练后的分类器对目标数据进行分类!
分析分类效果"需要特别解释的是!
本文中一条通信流由一组具有相同五元组D源8-#目的8-#源端口#目的端口#协议E的数据帧组成!
其中*+,支持的协议为*1-协议"本文依照该规则!
在*1-协议层进行流重组"!
"#数据采集数据准备阶段包括数据生成#数据采集和组流@个环节"首先需要生成带有类别标签的数据$在沙箱中分别运行包括网页浏览#即时通信#音频流#视频流#电子邮件#5+8-#-.
-数据传输和/*-文件传输B种类型的网络应用!
并利用架设的*+,网关服务将相应应用产生的网络流打包传输至*+,网络中"进而使用FGHIJKH应用在*+,网关两端采集数据帧!
即可得到两类实验数据$9C:应用于*+,流量检测的带*+,和非*+,标签的网络帧数据%9L:应用于*+,通信行为分类的带B种应用类型标签的*+,网络帧数据"接下来!
按照五元组将网络帧进行重组!
形成网络流"对具有相同五元组的不同网络流!
采用*1-协议中的/8=帧来进行切分"B类应用数据流的生成方法描述如下$9C:页面浏览$通过MNONPQJK自动化工具调用/Q,NR+S和1T,+KN浏览器的UNGV+I,QWN,和GT,+KQJK内核!
遍历访问2ONSX知名网站列表!
并对首页内超链接进行深度为.
的访问遍历!
获得所有$**-和$**-7流量!
数据总量BY"&Z"9.
:即时通信$本文采集的即时通信数据来自微信#[[#7V\HN#*NONU,XK#]TXFM2HH#和7QUPXO!
行为包括文本聊天#文件传输等!
数据总量CY!
&Z"9@:音频流$[[音乐和网易云音乐是中国最大的音频流媒体应用平台!
本文分别采集这两个桌面应用自动播放时产生的^YA&Z流媒体传输数据"9(:视频流$本文采集了腾讯视频#搜狐视频#优酷视频等自动播放时的YB&Z多媒体流"9":电子邮件$通过邮件客户端绑定包括采用7*网络邮箱!
除通过邮件客户端的自动更新功能进行邮件传输外!
主动通过各个邮箱发送#接收邮件及其!
数据总量.
Y@&Z"9;:5+8-$采集包括微信语音#7V\HN通话#/XGNb++V+ePeX,I8PFN,2,,QWXO*QKN!
>82*:$下行帧之间的时间差!
包括均值!
^#最小值!
"#最大值!
;和标准差!
"9@:帧时间差9/O+e8PFN,2,,QWXO*QKN!
/O+e82*:$所有帧之间的时间差!
包括其均值!
B#最小值!
!
#最大值!
CA和$$标准差!
!
!
!
"#$流活跃时间%在流进入空闲状态之前所经历的时间#包括其均值!
!
-$最小值!
!
.
$最大值!
!
#和标准差!
!
/!
%/,流空闲时间%012+$"在流进行活跃状态之前%保持空闲状态的时长%包括其均值!
!
3$最小值!
!
4$最大值!
!
5和标准差!
!
6!
"3,流字节速率"72898@1%7289:=,"该流平均每秒传输的字节数%用!
-A表示!
%4,流帧率%7289=B'C+8@1%7289==,"该流平均每秒传输的帧数量%用!
-!
表示!
%5,流负载%7289=B;28B1B()8@,"流的第一帧和最后一帧的间隔时间!
-3!
上述特征除流持续时间外%按照特点可分为3组特征!
前.
组分别是上行帧时间差$下行帧时间差和帧时间差特征%着重刻画上下行流量中的时间间隔特征%分别命名为E0&F$G0&F和72890&F&第#$/组特征关注流在活跃和空间状态之间变化的特点%分别用&'()*+和012+指代&最后一组包括流字节速率7289:=$流帧率7289==和流负载7=%关注的是流在不同层面的传输量和传输速率%统一用7=代替'/"0实验流程首先通过实验验证所提特征集合对F8>流量和普通流量进行区分的能力!
实验分两个阶段%包括"%!
$通过假设检验%验证每个特征在F8>流量和普通流量上数值分布上的差异显著性&%-$通过训练分类器%验证提取的特征对F8>流量和普通流量进行分类的有效性!
在假设检验阶段中%设零假设"A为"对于F8>网络流和正常流提取的特征%不存在统计上的显著差异性!
进而采用=软件中非参检验工具集%分别进行HB@@IJK)(@+;%HJ%#LAMA/$测试和N82O8P8>8*IO)>@8*"N%#LAMA/,测试Q!
.
R%以增强结论的可靠性!
相关测试均可用于验证目标数据与给定分布之间的差异性%实验中风险阈值设定为AMA/!
第二阶段%采用机器学习分类器进行效果评估%即基于本文所提的-4维分类特征%采用!
A折交叉验证%分别在F8>流量检测问题和F8>通信行为分类中测试分类器的效果!
本文采用@机器学习工具集Q!
#R%从中分别选择N近邻分类器"NS+B>+%NSS,Q!
/R$逻辑回归分类器"U8P)+++%GF,Q!
3R$朴素贝叶斯分类器"SB!
*+:B;+(Y+'(8>HB'K)@+%YH,Q!
5R和随机森林分类器"VB@18O78>++')+,$马修斯相关系数"HB((K+9>+2B"()8@W8+ZZ)')+@(%HWW,Q-AR$接受者工作特征曲线"V[W,和精度I召回率曲线"=VW,等测量指标评价F8>流量的分类效果!
0"2实验结果本节分别进行F8>流量识别和F8>通信行为分类!
在F8>流量识别任务中%首先通过假设检验分别验证所提特征在不同类别流量下的分布差异性%进而通过训练分类器验证特征的有效性&在F8>通信行为分类中%直接通过训练分类器验证特征的有效性!
0+2+1*-3流量识别经过HJ和N检验%不同特征的参数分布均拒绝原假设"A%故备择假设成立%表明本文所提特征在F8>流量和普通流量上的概率分布呈现显著差异性%可被有效用于区别两类数据流%因而运用所有-4个特征来完成接下来的分类任务!
表!
给出了F8>流量识别问题的实验结果%可以看到%所有给出的分类算法都能够有效识别F8>网络流量!
其中%随机森林分类器的预测结果最好%在每个评价指标上都取得了最高分&支撑向量机的分类效果次之&效果最差的分类器是决策树%在7IH+B+等#个综合评价指标中都得到了最低的得分!
表-展示了不同特征组在F8>流量识别任务中的效果%分类算法采用全特征预测时效果最好的支撑向量机和随机森林!
由表可知%在两个分类器中%特征组&'()*+和特征组012+的预测效果均最差%仅略高于随机分类%特征组7=均取得了最好的预测效果&E0&F$G0&F和72890&F的分类效果接近%预测效果介于上述两类特征的预测效果之间!
接下来通过逻辑回归分类器分析预测特征!
逻辑回归分类器的优点是除能够给出分类预测结果外%还可以检验自变量与因变量的相关性%并且与自变量相对应的回归系数可以显示自变量与因变量的相关强度以及正负相关性!
本文用逻辑回归分类器判断基于内容特征的各项指标是否具有较强的链路预测能力!
对于该二分类问题%将某条流量的类别作为因变量&分类器N近邻逻辑回归决策树朴素贝叶斯支撑向量机随机森林=>+')+AM5!
5AM56#AM4#5AM46/AM65-AM65#HWWAM5-6AM56.
AM4.
5AM5!
!
AM645AM6.
6V[WAM5-AAM6AAAM466AM5-4AM646AM665=VWAM5-4AM565AM5A!
AM55/AM646AM665表!
全特征F8>流量识别45!
电子技术应用"!
"!
#年第$%卷第$期#将!
"维特征作为自变量!
可得到表#逻辑回归实验结果的训练结果"其中标准误差项用于评价回归系数是否显著不为$!
!
值由回归系数与标准误差之比得到!
与"一起用来检验回归系数为$的零假设"此处同样取显著性水平!
为$%$&!
当"小于!
时!
说明回归系数显著不为$!
即自变量与因变量显著相关"由"列可知!
特征#'(的"值大于显著性水平!
!
因此除特征#流空闲时间的标准差值$外!
在回归模型中!
其他预测特征对)*+流量识别均具有显著影响%通信行为分类表,展示了本文所提特征在)*+通信行为分类任务中的结果"由表可知!
支撑向量机分类器取得了最好的预测效果!
综合指标值接近$%-&"相较于支撑向量机和随机森林!
.
近邻&决策树和逻辑回归的模型拟合能力较差!
因而预测效果较差"(结论本文针对)*+流量的检测与识别问题!
提出了一种基于机器学习的)*+流量探测技术"通过主动生成)*+网络流量!
提取网络流特征!
训练分类器!
对)*+流量与普通流量进行分类!
取得了/012345+2测度值$%(-的效果"更进一步地!
在对)*+服务所承载的多种应用数据进行分类时!
该套特征也取得了准确率-&%(6和召回率-7%'6的预测结果"试验中支撑向量机和随机森林在所有实验条件下取得了最好的分类效果!
效果最好的分类特征组是/8"实验表明本文所提方法是有效的"本文的后续工作将考虑在时序特征&网络拓扑结构特征等方面进一步丰富和优化特征集合!
以进一步提高)*+通信类型分类的效果"同时进一步研究)*+网络中的其他常见通信数据!
拓展本文所提方法的应用范围"参考文献9'ABCD.
!
EDBFGAH!
2I3J%KLMNMNOJMOLIMNP3+QRJ3S24T5NP2+4I3NPMNOIL2)*+N2IU*+Q9=FYH!
/C)AYKF!
CD@AA!
2I3J%)+3ZZMS3N3JW4M43II3SQ4*N)*+'345+V2W9AFE;!
HB=b!
2I3J%YNZ2++MNO3RRJMS3IM*NIWR2MNZ*+13IM*NZ+*1)*+2NS+WRI2PI+3ZZMS9K!
@AD@CDA;c!
8=D)=.
AHYYKE!
2I3J%分类器支撑向量机随机森林特征组BYA)YA)/J*UYA)ASIMV2YPJ2/8BYA)YA)/J*UYA)ASIMV2YPJ2/88+2SM4M*N$%"_$$%XX&$%"'X$%&"$$%X$'$%(_X$%X-($%","$%X('$%&,_$%X'7$%('$D2S3JJ$%"'-$%"'_$%"('$%&(&$%&('$%(,,$%"_,$%X__$%X($$%&--$%&(-$%(_$/0;2345+2$%"X($%X--$%"&7$%&-7$%&(X$%(,$$%"''$%X-&$%X($$%&X&$%X$&$%(7$;@>)&A(B7CDE!
DFCDG!
CDHIJC'KL!
$#;M)'$0&RUSFV()&>>O@O@>()4339!
"SS1/3Q$P)K,+9+,W$#)F+1S9M:1O1;PM$O#+;0S,P2O9+,#,O-,MO(L7RN7C7LN=D)*M:11;PM$O#+;0&RUSFV()&>>O@O@>()4##9>O@O@>()4##9a>b@O@>c作者简介"陈欢'@66^dc!
男!
硕士研究生!
主要研究方向"匿名通信#暗网探测$苏马婧'56e^dc!
女!
博士!
正高级工程师!
主要研究方向"网络空间测绘%网络安全&王学宾'56efdc!
男!
博士!
工程师!
主要研究方向"计算机网络%信息安全等&'上接第^X页cF0#4$$22$-#/]$0$@A">Agd>^g)&f(h7C=JC[!
hH7[Ji8!
D7VjJi[!
$3;M)N0@e)&g(ZJ[[87CCR!
BJCRFV=LI[!
YJRJ[[7KZZ!
$3;M)B$P6"X@dA>)&e(Z7IJ=h!
R7CJ=NiD)Ld2/01$+9+/03/01";+,P:@f"@@egd@>X)&6(*7C'ZJCLF7!
V7CiJY!
iNCCJC7!
$3;M)B$P@^)&@@(UN[IHLFj7!
*H=KFD7[FjN!
BJNC87CC[*)K+;QM/012,+K,+4/.
.
$00!
0#n.
$;0,0"%/m;#/,0&'()>@XNJJJ="%9,(UN[IHLFj7!
*H=KFD7[FjN!
KZNVVY!
$#;M)',0#$0#;0.
9,9:M;+/#";0;M"@A"@eed@6X)&@X("i#F87L8=!
L7[K7V8!
=JCDJ[F!
$#;M)',%9;+/a5X!
>pAc"e@d6e_&@A(*JR[JDF=7Y!
j7[FEH7HGD!
D[78YF[K7!
$3;M_=-/\/3dM$;+0"%;-4/0$M$;+0/01/09"34,0&h(_h,:+0;M,28;-4/0$V$;+0/01[$a@@">e>^d>eXa_&@^('HCCNCDZ78*!
RJV7CI=h_Ld0$;+$aag_&@f(*JCDh!
VJJL!
NCDJ[=FVVD_70/03+,.
:-3/,03,M,1/a@>"Xd@A_&@g(L7jN7CN*!
RZFK[J=_=4,+3a@g_&@e(K/;0I/01W/$!
=4/I,01!
V/:G/;,4:/_[$-$03;.
];0-$a@>!
@eq@c"^OXXr&@6(7VNh!
LZ7C[!
7Z87RC!
$3;Mr[;0.
,%2,+$('ZN''FR!
hH[87CDrK4$;.
];03;1$>OgO@fc作者简介"张玲'@6gfOc!
女!
博士研究生!
高级工程师!
主要研究方向"网络安全%数据分析&卫传征'@6eAOc!
男!
硕士研究生!
工程师!
主要研究方向"网络安全&段琳琳'@6gAOc!
女!
博士研究生!
讲师!
主要研究方向"数据分析与信号处理&/0版权声明经作者授权,本论文版权和信息网络传播权归属于《电子技术应用》杂志,凡未经本刊书面同意任何机构、组织和个人不得擅自复印、汇编、翻译和进行信息网络传播.
未经本刊书面同意,禁止一切互联网论文资源平台非法上传、收录本论文.
截至目前,本论文已经授权被中国期刊全文数据库(CNKI)、万方数据知识服务平台、中文科技期刊数据库(维普网)、DOAJ、美国《乌利希期刊指南》、JST日本科技技术振兴机构数据库等数据库全文收录.
对于违反上述禁止行为并违法使用本论文的机构、组织和个人,本刊将采取一切必要法律行动来维护正当权益.
特此声明!
《电子技术应用》编辑部中国电子信息产业集团有限公司第六研究所
百纵科技怎么样?百纵科技国人商家,ISP ICP 电信增值许可证的正规公司,近期上线美国C3机房洛杉矶独立服务器,大带宽/高配置多ip站群服务器。百纵科技拥有专业技术售后团队,机器支持自动化,自助安装系统 重启,开机交付时间 30分钟内交付!美国洛杉矶高防服务器配置特点: 硬件配置高 线路稳定 洛杉矶C3机房等级T4 平价销售,支持免费测试,美国独服适合做站,满意付款。点击进入:百纵科技官方网站地...
妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...
提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...
网络邮箱为你推荐
戴尔智能数据管理toupianyuanzhu看拼音写词语googlepr值怎样提高谷歌PR值支付宝账户是什么支付宝帐号,指的是什么帐号 是网营密码吗asp.net网页制作ASP.NET设计网页的方法?flashftp下载禁室迷情夜下载地址给我 谢谢要能下载出来的netshwinsockreset电脑开机老是出现wwbizsrv.exe 应用程序错误 怎么处理滴滴估值500亿滴滴拉屎 App 为何能估值 100 亿美金?是怎么计算出来的爱优网为什么优酷土豆等视频网站那么多人上传视频玖融网泰和网理财可信吗,泰和网理财是不是骗人的啊????????
全能虚拟主机 域名升级访问中 便宜域名注册 广州服务器租用 网易域名邮箱 鲨鱼机 优惠码 42u标准机柜尺寸 sub-process 一点优惠网 申请空间 中国智能物流骨干网 美国堪萨斯 国外ip加速器 Updog 网购分享 阿里云官方网站 网站加速软件 服务器维护 smtp服务器地址 更多