基于通信特征提取和IP聚集的僵尸网络相似性度量模型
本文关键词:基于通信特征提取和IP聚集的僵尸网络相似性度量模型,,由笔耕文化传播整理发布。
第33卷??第1期2010年1月;计????算????机????学????报;Vol.33No.1;Jan.2010;基于通信特征提取和IP聚集的僵尸网络相似性度量模;李润恒??王明华??贾??焰;1);2);1)2)1);(国防科学技术大学计算机学院??长沙??4100;(国家计算机网络应急技术处理协调中心??北京??;摘??要??IRC僵尸网络(botn
第33卷??第1期2010年1月
计????算????机????学????报
Vol.33No.1
Jan.2010
基于通信特征提取和IP聚集的僵尸网络相似性度量模型
李润恒??王明华??贾??焰
1)
2)
1)2)1)
(国防科学技术大学计算机学院??长沙??410073)
(国家计算机网络应急技术处理协调中心??北京??100029)
摘??要??IRC僵尸网络(botnet)是攻击者通过IRC服务器构建命令与控制信道方式控制大量主机(bot)组成的网络.IRC僵尸网络中IRC服务器与bot连接具有很强的动态特性,为识别使用不同IRC服务器的同一僵尸网络,文中提取并比对僵尸网络的通信量特征、通信频率特征,建模估算bot重叠率,通过融合以上度量指标,提出了僵尸网络相似性度量模型.实验验证了模型的有效性,计算了其准确率,并分析了僵尸网络的迁移.关键词??僵尸网络;通信;聚集;相似性度量;迁移
中图法分类号TP393??????DOI号:10.3724/SP.J.1016.2010.00045
ModelingBotnets!SimilarityBasedonCommunicationFeatureExtractionand
IPAssembly
LIRun??Heng1)??WANGMing??Hua2)??JIAYan1)
1)
2)(N
(SchoolofComputer,NationalUniversityofDefenseTechnology,Hunan??410073)
ationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing??100029)
Abstract??IRCbotnetcanberegardedasacollectionofcompromisedcomputers(calledZombiecomputers)runningsoftwareunderthecommand??and??controlinfrastructureconstructedbytheIRCservers.Theconnectionbetweenthebotnetserverandthebotsareusuallyverydynamic.Inordertodescribeabotnetatafinergranularity,thepaperproposesamethodthatmeasuresthesimilarityofbotnetsbyextractingandcomparingthemetricssuchascommunicationvolumes,frequency,andtheoverlaprateofbots.Anovelmodelforbotnetsimilaritymeasuringispro??posedbycombiningthosemetricsmentioned.Experimentsarecarriedoutforvalidationpurpo??ses,theconfidenceoftheaccuracyisevaluatedandshown,andthemigrationsituationofbotnetarealsodiscussed.
Keywords??botnet;communication;assemble;similaritymeasure;migration
序控制大量主机,并通过一对多的命令与控制信道
1??引??言
僵尸网络是攻击者出于恶意目的,传播僵尸程
(CommandandControl,C&C)所组成的网络.僵尸网络为攻击者提供了隐匿、灵活且高效的一对多命令与控制机制,可以控制大量僵尸主机实现信息
收稿日期:2009??07??15;最终修改稿收到日期:2009??09??07.本课题得到国家??八六三 高技术研究发展计划项目基金(2007AA010502,2007AA01Z474,2006AA01Z451)资助.李润恒,男,1982年生,博士研究生,研究方向为僵尸网络、数据挖掘.E??mail:lirunheng1982@gmail.com.王明华,男,1978年生,博士,工程师,研究方向为互联网安全监测、应急响应处理.贾??焰,女,1960年生,教授,博士生导师,.
46计????算????机????学????报2010年
窃取、分布式拒绝服务攻击和垃圾邮件发送等攻击目的.僵尸网络正步入快速发展期,对因特网安全已造成严重威胁.
僵尸网络主要分为IRC僵尸网络、HTTP僵尸网络和P2P僵尸网络.IRC僵尸网络是最早产生而目前仍然大量存在的一类僵尸网络,基于标准IRC协议在IRC聊天服务器上构建其命令与控制信道,控制者通过命令与控制信道实现对大量受控主机的僵尸程序版本更新、恶意攻击等行为的控制,其控制者、命令与控制服务器(IRC服务器)、受控主机(bot)、被攻击对象的关系如图1所示;HTTP僵尸
网络与
IRC僵尸网络的功能结构相似,所不同的是HTTP僵尸网络控制器是以WEB网站方式构建;P2P僵尸网络是一种较新型的僵尸网络,在P2P僵尸网络中僵尸程序同时承担客户端和服务器的双重角色.
图1所示的IRC僵尸网络健壮性差,存在单点失效问题,可通过摧毁单个IRC服务器来切断僵尸网络控制者与bot的联系,导致整个僵尸网络瘫痪.针对这一问题,bot的僵尸程序使用域名而非固定的IP地址连接IRC服务器,僵尸网络控制者使用动态域名服务将僵尸程序连接的域名映射到其控制的多台IRC服务器上,一旦正在工作的IRC服务器失效,僵尸网络的受控主机会连接到其他的IRC服务器,整个僵尸网络继续运转,如图2(a)所示.此外,将僵尸网络的控制权出租出售谋取经济利益是目前僵尸网络产业链的重要组成部分.僵尸网络主动或者被动改变其IRC服务器的行为称为僵尸网络的迁移.此外,出于安全的考虑,某些大型僵尸网络采用分层管理模式,如图2(b)所示,由多个IRC服务器控制各自不同的bot群体,而所有的IRC服
图1??IRC僵尸网络关系示意图
务器同时由僵尸网络控制者统一控制
.
图2??IRC僵尸网络衍变示意图
????因此IRC服务器与僵尸网络(控制者)并不一定是一一对应关系,并且IRC服务器与僵尸网络(控制者)的对应关系可能随时间发生转变.利用IRC服务器与bot的一对多映射关系,使用聚类等数据分析方法可以有效地检测IRC服务器与bot的C&C通信,以此获得IRC服务器与bot的对应关系.但是僵尸网络控制者与IRC服务器是一对一映射关系,很难使用数据分析方法获得僵尸网络控制者与IRC服务器的对应关系.
IRC僵尸网络中,bot与控制者是实体,IRC服务器只是其中间桥梁.要准确地掌握僵尸网络,必须掌握僵尸网络(控制者)与bot的对应关系.由于僵尸网络IRC服务器与bot连接的复杂衍变特性(如图)难,目前相关研究主要集中在IRC服务器与bot的C&C通信检测,存在局限.此外,由于很难获取大规模僵尸网络通信数据,实验数据由少量已知僵尸网络通信数据集仿真产生,无法对大量僵尸网络通信数据进行特征比对等关联分析.本文首先将IRC服务器与所关联的bot看作一个僵尸网络,在此基础上建立僵尸网络相似性度量模型,根据僵尸网络相似性距离值,分类识别相同的僵尸网络,以此准确地掌握僵尸网络.准确地掌握僵尸网络有利于度量僵尸网络的大小,评估僵尸网络的危害;研究僵尸网络的生命周期,掌握其衍变特性等.
本文基于国家网络安全监测平台监测到的僵尸网络IRC服务器与bot的C&C通信数据,从不同
1期李润恒等:基于通信特征提取和IP聚集的僵尸网络相似性度量模型47
尸网络的通信特征;bot重叠率的建模估算.由于僵尸网络间bot群体的差异、僵尸程序版本的差异等因素,通信特征是僵尸网络区别其它僵尸网络的显著特征,包括通信量特征和通信频率特征.由于大多数bot夜间关机下线,僵尸网络通信量有明显的以一天为周期的周期规律,提取僵尸网络通信量日周期曲线和通信频率日周期曲线.通信量日周期曲线反映了bot群体的普遍上线时间习惯,而通信频率日周期曲线反映了僵尸网络控制者的使用习惯以及僵尸程序版本等特征.度量僵尸网络相似性的另一个方法是建模估算bot的重叠率.考虑到互联网上众多ADSL上网的主机使用动态IP地址,直接计算botIP的重叠率会导致很大的误差.本文通过botIP地址的聚集操作,将botIP地址集合,映射为bot集合,估算僵尸网络间bot的重叠率,以此来度量僵尸网络的相似性.两类方法各有优缺点,适合不同的情况,融合其相似性度量的结果,本文提出僵尸网络相似性度量模型.通过蜜网蜜罐跟踪、域名监测系统日志分析等手段确认相同僵尸网络,对模型进行有效性验证,计算其准确率,并分析导致错误的各类原因.最后分析僵尸网络的迁移.
本文第2节介绍相关研究;第3节介绍基于通信特征提取和IP聚集的相似性度量模型,3??1节介绍国家网络安全监测平台,3??2节介绍通信量特征提取,3??3节介绍通信频率特征提取,3??4节介绍IP聚集,3??5节介绍相似性度量模型;第4节为实验和验证;第5节为结语及未来工作的展望.
其完全控制的主机架设专门的僵尸网络命令与控制服务器.IRC僵尸网络的工作机制:攻击者通过各种传播方式使得目标主机感染僵尸程序;僵尸程序加入到攻击者私有的IRC命令与控制信道中;攻击者
登陆并加入到IRC命令与控制信道中,通过认证后向僵尸网络发出各种指令;僵尸程序接受指令,执行指令,必要的情况下返回执行指令的结果.
IRC僵尸网络的跟踪与检测方法可以分为3大类:蜜网蜜罐跟踪僵尸网络[1??4]、协议与结构相关检测方法[5??9]、协议与结构无关检测方法[10??11].蜜网蜜罐通过捕获并分析恶意代码获取僵尸网络命令与控制信道的相关信息,然后模拟受控的僵尸主机加入僵尸网络,对僵尸网络的内部活动进行观察和跟踪,但是这类方法依赖于蜜网蜜罐布控点的分布,无法有效地检测出全部活跃的僵尸网络.协议有关的检测方法利用跟踪方法了解僵尸网络内部工作机制,抽象出僵尸网络行为特征,通过异常检测等方法检测僵尸网络.协议无关的检测方法采用聚类算法将网络流量分类,从而识别僵尸网络流量和正常流量.
关于僵尸网络的动态性、相似性度量方面的研究,文献[12]从评估僵尸网络规模的角度提出了僵尸网络相似性度量问题,文章指出评估僵尸网络规模的难点之一是僵尸网络的动态性,通过蜜网蜜罐跟踪僵尸网络获取其僵尸程序版本、IRC服务器IP、IRC服务器域名、IRC频道名、控制者ID等信息,提出了僵尸网络相似性度量模型,最后分析了僵尸网络的迁移情况;文献[2]对僵尸网络的迁移及复制现象进行了分析,但是只针对僵尸网络在同一个IRC服务器上不同频道的迁移与复制;文献[13]从研究僵尸网络传播模型的角度,考虑到大多数计算机在夜间关机下线,从而僵尸网络的通信量呈现周期现象,提取了僵尸网络在全球不同时区的通信量日周期曲线.
2??相关研究
僵尸网络是在网络蠕虫、特洛伊木马、后门工具等传统恶意代码形态的基础上发展、融合而产生的一种新型攻击方式.采用灵活且高效的一对多控制机制,利用僵尸网络,攻击者可以轻易地控制成千上万台主机对因特网任意站点发起分布式拒绝服务攻击,并发送大量垃圾邮件.因此,僵尸网络得到了攻击者的关注并进一步发展成为因特网最为严重的威胁之一.近年来,僵尸网络的活跃已经引起国内外安全业界的充分重视,僵尸网络已成为安全领域的学术研究和讨论的热点问题.
目前主流的僵尸网络是IRC僵尸网络,基于标准IRC协议构建其命令与控制信道,其控制服务器可构建在公用IRC聊天服务器上,但攻击者为保证3??基于通信特征和IP聚集的
相似性度量模型
3.1??国家网络安全监测平台
863??917网络安全监测平台
[14]
是国家??八六三
计划设立的网络安全应急项目(917工程)建设的网络安全监控平台.该平台是保障国家网络安全和网上重要信息系统安全的重要监测平台,由CNCERT/CC负责建设并运行.
??
48计????算????机????学????报2010年
系统,实时监测我国互联网中特定安全事件,诸如僵尸网络、木马通信事件等.采用协议与结构相关的僵尸网络检测方法,利用蜜网蜜罐获取僵尸网络信息、提取僵尸网络报文级通信特征,在国家重要路由器节点部署网络型IDS,对路由报文使用特征匹配检测僵尸网络C&C通信.检测到的僵尸网络C&C通信包括IRC服务器与bot间的控制命令、定期存活检测通信等.863??917平台记录了僵尸网络通信事件的botIP地址、IRC服务器IP地址、通信时间等属性.根据863??917平台的检测结果,能够获取IRC服务器与bot的映射关系.3.2??通信量日周期曲线
由于僵尸网络间bot群体的差异、僵尸程序版本的差异等因素,僵尸网络的通信特征是僵尸网络区别其他僵尸网络的显著特征.通信特征包括通信量特征和通信频率特征,通信量特征反映了bot群体的普遍上线时间习惯,由于僵尸网络可能是针对特定的漏洞(比如Windows2000SP2漏洞)而发展形成的,其bot群体的上线时间习惯具有一定的相似性[13],而通信频率特征反映了僵尸网络控制者的使用习惯以及僵尸程序版本等特征.首先给出两个定义:
通信量(CommunicateCount)CCi(t),僵尸网络i的通信量随时间变化的函数,它是一个统计值函数,需要给定统计时间间隔大小w.其中i为僵尸网络标号,在不引起岐义的情况下,本文省掉i.
在线(online)bot数量Oboti(t),僵尸网络i在线bot数量的统计函数.
大多数计算机在夜间关机下线,僵尸网络的通信量在夜间有明显的下降,具有明显的周期性,如图3所示.实验显示僵尸网络的通信量每一天的变化曲线相似,统计n天的数据计算僵尸网络的通信量日周期函数C(t)(0 t 24h)如下:
(1)计算每一天的通信量CC(t);(2)对每一天的数据进行归一化;(3)平均n天的数据;
(4)对(3)的结果进行归一化,得到C(t);为了度量僵尸网络间通信量特征的相似性,计算其通信量日周期曲线的距离,曲线的距离有欧氏距离、DTW、LB_Keogh、LB_PAA距离等,此外通信量日周期曲线还有其显著的特点:由于bot群体的相似性,上线时段集中,有上线高峰和低谷,通信量日周期曲线有明显的曲线峰、谷.本文采用欧氏
.
[15]
图3??僵尸网络通信量变化曲线图
3.3??通信频率日周期曲线
通信量一定程度上反映了僵尸网络在线bot数量,而通信频率即单位bot主机的通信量,反映的是僵尸网络IRC服务器与bot间通信的频繁程度.实验显示,僵尸网络的通信频率在一天内的平均值趋于常量,如图4所示.
图4??僵尸网络日平均通信频率变化图
但是僵尸网络的通信频率在一天内并不恒定,而是同样呈现明显的周期性.统计n天的数据,计算僵尸网络通信频率日周期函数CF?(t)(0 t 24h)如下:
(1)把每天的通信数据分成24h/w份(w为统计时间间隔大小,它的含义是:认为在w间隔内有通信的IP数为该时间跨度内在线肉机数Obot(t),根据僵尸网络IRC服务器与bot通信数据的特点,本文w取10min),每一份时间跨度为w,计算每一份数据中不同IP个数,得到在线肉机函数Obot(t)的统计值;
(2)计算通信量CC(t),通信频率函数CF(t)=CC(t)/Obot(t),即单位bot的通信量.若Obot(t)=0,使用线性插值的方法计算CF(t).
(3)平均n天的数据,得到CF?(t)(0 t 24h);
响,
1期李润恒等:基于通信特征提取和IP聚集的僵尸网络相似性度量模型49
CF?(t),得到CFS(t).
由于互联网IP地址紧缺,一些局域网内部网络采用NAT(NetworkAddressTranslation)技术,使多台计算机使用一个IP共享Internet连接,在局域网内部网络中使用内部地址,而当内部节点要与外部网络进行通信时,就在网关将内部地址替换成公用地址.bot中这类IP的通信频率明显大于所属僵尸网络的通信频率,如图5所示,图中两曲线分别为僵尸网络通信频率和该僵尸网络某botIP的通信频率.因此计算僵尸网络通信频率时,应该剔除掉这些IP.由于共用botIP为静态IP,通信时间跨度较长,在计算僵尸网络通信频率时,剔除通信时间跨度超过阈值m的botIP,本文实验m取
10d.
到ISP给bot主机动态分配的IP地址集合具有局部性,对botIP地址进行聚集操作,去掉IP地址的小数点间隔的第4部分,这样的操作记作映射g.
容易证明以下定理.
定理1.??若?IPi,IPj?f(bk)(k=1,2,#,n),g(IPi)=g(IPj),则|g(I)| |B|;
若?IPi?f(bk),?IPj?f(bl)(k,l=1,2,#,n,k%l),g(IPi)%g(IPj),则|g(I)|!|B|.
由定理1得到定理2.
定理2.??若?IPi,IPj?f(bk)(k=1,2,#,n),g(IPi)=g(IPj),?IPi?f(bk),?IPj?f(bl)(k,l=1,2,#,n,k%l),g(IPi)%g(IPj),则|g(I)|=|B|.
根据定理2的假设,对僵尸网络的足迹(foot??print)(给定监测时间内所监测到的botIP)即集合I进行聚集操作,得到g(I),它与bot集合一一对应,计算僵尸网络间bot的重叠率以此来度量僵尸网络的相似性.
3.5??相似性度量模型
僵尸网络的通信量日周期曲线距离、通信频率日周期曲线距离、bot重叠率均可以度量僵尸网络的相似性.但是这几种方法各有优缺点,适合不同的情况,根据单独的一个特征不能准确地判断僵尸网络的相似性.譬如僵尸网络间没有bot的重叠,也可能是同一个僵尸网络,它们是同一个僵尸网络的不同bot群体,如图2(b)所示.本小节融合以上方法的度量结果,建立僵尸网络相似性度量模型,第4节将验证模型的有效性.
僵尸网络相似性度量指标:bot重叠率、通信量日周期曲线距离、通信频率日周期曲线距离.
相似性度量函数应该满足下面的性质:
单调性.函数值随某个指标的值的增加而增加或者随某个指标的值的增加而减小.
敏感性.函数值随各指标值变化的变化速度不同,对更重要指标,函数值对其变化更敏感.
鲁棒性.若某个指标误差较大,函数值能够一定程度地屏蔽其对结果的影响.
bot重叠率、通信量日周期曲线距离、通信频率日周期曲线距离的值进行归一化处理后分别计为S1,S2,S3,其权值系数记为w1,w2,w3.
相似性度量函数:
S=w1(1-S1)+w2S2+w3S3.
僵尸网络对的相似性度量函数值越小,表示僵尸网络对的相似性越大.容易验证,函数满足单调性、敏感性、鲁棒性.权值系数的确定,最优分类判别图5??共用IP与其所属僵尸网络通信频率曲线对比图
3.4??IP聚集
度量僵尸网络相似性的另一个方法是计算bot的重叠率.考虑到互联网上众多ADSL上网的主机没有一个固定的IP,当主机联网,互联网服务提供
商(ISP)从一个IP库中对其随意分配一个未经使用的IP地址.这一IP地址只会在该主机上网的时间段中保留,下一次上线可能分配不同的IP地址.因此bot的IP地址存在大量动态IP,直接计算botIP的重叠率会导致很大的误差.本小节通过botIP地址的聚集操作,将bot的IP地址集合,映射为bot集合,再计算僵尸网络间bot的重叠率,以此来度量僵尸网络的相似性.
botIP聚集理想的结果是每一个bot使用过的IP聚集到同一个集合,不同bot对应聚集后的集合不同,即聚集后的集合与bot集合一一对应.对于给定的僵尸网络,设其bot集合为B,B={b1,#,bn},bot数量为n,即|B|=n.这些bot使用过的IP地址集合为I,|I|=m,m!n,f(B)=I,f为B到I的1对多映射.
4
三亿文库3y.uu456.com包含各类专业文献、行业资料、文学作品欣赏、外语学习资料、应用写作文书、高等教育、生活休闲娱乐、基于通信特征提取和IP聚集的僵尸网络相似性度量模型_图文29等内容。
12
下载地址:基于通信特征提取和IP聚集的僵尸网络相似性度量模型_图文29.Doc
【】最新搜索
基于通信特征提取和IP聚集的僵尸网络相似性度量模型_图文
作业场所职业病危害申报表
巴塞尔:有效银行监管核心原则(2012年最新修订版)
、持股比例不同于企业持有的表决权比例的,企业不应当披露该表决
《狐狸的故事》母题分析
cad解块命令
孝感市孝南区人社局
农村生活污水厌氧发酵——人工湿地处理技术培训提纲_secre
一片荒无人烟的大漠中有一棵枯死的老树作文评讲课件
礼仪教育概念的界定
本文关键词:基于通信特征提取和IP聚集的僵尸网络相似性度量模型,由笔耕文化传播整理发布。
本文编号:134709
本文链接:https://www.wllwen.com/kejilunwen/wltx/134709.html