当前位置:主页 > 管理论文 > 移动网络论文 >

互联网中基于用户连接图的流量分类机制

发布时间:2019-08-19 10:08
【摘要】:针对机器学习分类算法的"概念漂移"现象,该文提出了一种基于用户连接图的(Host Connection Graph,HCG)流量分类机制。算法将{IP Address,Port}作为用户唯一标识,构建了用户连接图,提出了"用户相似度"的概念;应用"图挖掘"理论将用户连接图划分为互不相交的行为子簇,使得用户之间的相互通信抽象为一种"社会团体";通过定义基于信息熵的"用户行为模式"(UBM),分析了各个行为子簇背后表现出的业务特征,并使用"UBM+Port"对用户行为子簇进行了业务标签映射,实现了流量分类的目的。仿真实验表明:在不牺牲识别准确率的前提下,算法不仅能克服"概念漂移"问题,还能有效降低算法的计算复杂度。
【图文】:

示意图,相似度,示意图


,3v相连,则定义用户iv的相邻用户集合为{}123,,iU=vvv。定义2用户相似度(usersimilarity)若用户iv与jv为相邻用户,则定义iv与jv的用户相似度为无穷大¥(即两个用户具有共同的业务应用);若iv与jv不相邻,且iv,jv对应的相邻用户集合为iU和jU,则iv与jv的用户相似度定义为两个相邻集合共享用户的个数||ijUU。用户相似度从用户的周围连接环境出发,不仅仅孤立地计算单一用户对之间的关联,而是引入了以“用户之间共享最近邻”为指标的相似性度量。如图1所示,用户A和B之间共享4个用户连接,根据用户相似度的定义,A和B之间的相似度为4。用户相似度基于如下原理:若用户1v与用户iv直接相连,用户nv和用户iv直接相连,则认定1v与nv具有较高的业务相似度。谱聚类的过程是基于数据点的相似度矩阵进行的,HCG算法则是以“用户相似度”来度量用户之间的业务交互行为,并基于谱聚类将用户连接图G(V,E)进行行为子簇的划分。表1给出了基于谱聚类的用户行为子簇划分的详细流程。图1用户相似度示意图4基于信息熵的用户行为分析4.1基于信息熵的行为定义在用户连接图G(V,E)中,用{SrcIP,SrcPort,DstIP,DstPort}4维元素来标识一条用户连接。若固定SrcIP,则{SrcIP,SrcPort,*,*}、{SrcIP,*,DstIP,*}、{SrcIP,*,*,DstPort}的连接数会呈现不同值,其中“*”代表任意值。分别计算相对熵R(SrcIP,SrcPort,*,*)、R(SrcIP,*,DstIP,*)、R(SrcIP,*,*,DstPort)。为方便描述,特将R(SrcIP,SrcPort,*,*)简写为R(SrcPort),其它依次类比。由于R(SrcPort)表示在某一SrcIP下,以SrcPort为变量的相对熵值,所以R(SrcPort)实质上体现了SrcPort平均不确定性。基于此

连接图,行为,结点,度数


第4期张震等:互联网中基于用户连接图的流量分类机制961Scan病毒。IPScan病毒表现的行为特征是用户使用设定的目的端口与受害者通信;PortScan病毒则对固定的用户地址进行端口扫面。4.2行为子簇的业务标签映射基于谱聚类的方法将样本集合划分为不同的子簇1{,,}qC=CC,流量分类需要根据用户行为模式进一步确定任意子簇对应的业务标签iL,iLL1{,,}m=LL。其中,业务标签为样本集合的所属类别。如图2所示,HCG算法对行为子簇进行标签映射的核心步骤如下:图2对用户结点进行标注步骤1寻求行为子簇中度数最大的用户结点uiHCG算法按照行为子簇中用户的度数大小进行标注:一方面,在用户连接图中,用户结点的度数越大表明其相邻用户越多,作为服务器的可能性也就越大;另一方面,若连接度数最大的用户结点被标注,则与其直接相连的用户也相应地得到了识别,从而能有效降低算法的计算复杂度。步骤2应用“用户行为模式+端口号”标注结点uiHCG算法使用“用户行为模式+端口号”的方式对用户结点ui进行类型标注。根据定义3,首先计算ui的行为模式,然后结合熟知端口号进行识别:(1)对于Server行为,结合熟知端口号进行业务识别,如:FTP,DNS,HTTP,Email,Telnet等;非熟知端口业务结合固定端口号识别,如:游戏(如“魔兽世界”对应端口3424)、数据库服务(如Mysql服务对应端口3306)等。(2)对于P2P业务,若某用户的行为模式满足M(SrcIP)={A,B,C},其中A<2,B<2,C<2,则该用户被定义为“疑似P2P用户”。如果行为子簇中存在大于T个疑似P2P用户,则该子簇表现为P2P行为,,并将所有“疑似P2P用户”标注为P2P用户。(3)只需分析用户行为模式M(SrcIP)={0,2,0},{2,2,0},{0,0,2},{2,0,2},即可判定病毒型?
【作者单位】: 国家数字交换系统工程技术研究中心;
【基金】:国家973规划项目(2012CB312901,2012CB312905) 国家863计划项目(2011AA01A103)资助课题
【分类号】:TP393.06

【参考文献】

相关期刊论文 前2条

1 李先通;李建中;高宏;;一种高效频繁子图挖掘算法[J];软件学报;2007年10期

2 鲁刚;张宏莉;叶麟;;P2P流量识别[J];软件学报;2011年06期

【共引文献】

相关期刊论文 前4条

1 张硕;李建中;高宏;邹兆年;;一种多到一子图同构检测方法[J];软件学报;2010年03期

2 薄拾;葛宁;林孝康;;一种高效的凸连通子图枚举算法[J];软件学报;2010年12期

3 刘荣辉;郑建国;王翔;;采用最小DFS的Deep Web结构化数据抽取[J];图书情报工作;2010年14期

4 邓伟锋;程绍银;蒋凡;吕秀全;;应用层负载特征定义及自动提取方法[J];通信技术;2012年07期

相关会议论文 前1条

1 郭景峰;陈晓;赵丽;邹晓红;;一种改进的闭图挖掘算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

相关博士学位论文 前5条

1 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年

2 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年

3 邹磊;图数据库中的子图查询算法研究[D];华中科技大学;2009年

4 马露杰;三维CAD模型形状结构分析方法[D];华中科技大学;2009年

5 张世栋;对等网络文件共享服务的优化技术研究[D];北京邮电大学;2012年

相关硕士学位论文 前10条

1 方霞;代码逆向分析中的语句恢复与算法识别技术研究[D];解放军信息工程大学;2009年

2 沈亮;基于粒子群算法的聚类及图聚类研究[D];山西财经大学;2011年

3 李甲;基于特征索引的图查询研究[D];燕山大学;2011年

4 张伟;频繁子图挖掘算法的研究[D];燕山大学;2011年

5 柴然;最大频繁子图挖掘算法研究[D];燕山大学;2010年

6 郑超;大规模图集的频繁子图挖掘算法研究[D];燕山大学;2010年

7 梁敏;基于统计行为的P2P文件共享加密流量识别技术的研究[D];哈尔滨工业大学;2011年

8 陈立宁;频繁子图挖掘算法的研究[D];长沙理工大学;2011年

9 张小敏;基于DPI的P2P流量识别方法研究[D];南京邮电大学;2012年

10 史岭峰;基于社交网络好友关系的图查询算法研究与应用[D];南京理工大学;2012年

【二级参考文献】

相关期刊论文 前5条

1 李伟男;鄂跃鹏;葛敬国;钱华林;;多模式匹配算法及硬件实现[J];软件学报;2006年12期

2 张宇翔;杨冬;张宏科;;P2P网络中Churn问题研究[J];软件学报;2009年05期

3 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期

4 刘兴彬;杨建华;谢高岗;胡s

本文编号:2528180


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2528180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d723***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com