基于支持向量机的P2P流量识别关键技术研究
第一章 绪论
近年来,对等计算(Peer-to-Peer,简称 P2P)技术迅速发展,日益受到计算机界的关注和青睐,迅速成为业界关注的热门话题之一。P2P 技术在文件共享、实时流媒体、视频点播和分布式计算系统等领域都有重要应用。P2P 技术的使用使得用户可获得的资源更广泛,内容更丰富,形式更多样,但 P2P 技术的广泛使用带来许多负面影响,如吞噬网络资源、知识侵权、网络安全等,这些问题也导致 P2P 流量识别研究迫在眉睫。同时 P2P 流量的准确高效识别是网络运营商或网络管理员开展网络活动的前提。可见,P2P 网络虽然能提供快速高效的文件共享、低成本高可用的计算资源和存储资源共享,并且具有强大的网络连通性,以及更直接更灵活的信息传送能力。然而,P2P 网络在提供高效快速资源共享的同时,也带来了众多的问题:P2P 对传输速度的需求高,且 P2P 应用的数据交换具有一对多、突发性和分布式特性,P2P 用户的超大容量下载,消耗了大量带宽;其用户抢占了大约 70%以上的网络带宽,造成企业及网络设备供应商的链路出现瓶颈效应;P2P 用户大批量地下载各种文件,使得网络负荷极大的增加,特别是在高峰时段,经常会出现网络不畅等状况。随着 P2P 应用的快速发展,P2P 指数级增长的数据传输使得网络带宽资源更加紧张。因此,为了确保其他正常网络用户的服务,同时为了更好地发挥 P2P 技术的优势,对 P2P 流量进行分类、识别就成为目前业内研究的一个热点。
....
2.1端口识别法
使用基于端口的识别方法对 P2P 流量的进行识别的方法,同样也可以用来识别普通应用分组。首先,在网络流量中提取需要检测的数据信息,然后通过提取该数据包首部信息中的端口信息,接着将提取到的端口号与已知的固定应用的端口号进行匹配,如果匹配成功,则可以断定该条数据流量为 P2P 流量。在 P2P 应用研究的初期有许多学者采用基于端口方法识别 P2P 流量。Sen 等学者[6]使用基于端口识别的方法成功地识别出当时流行的三种P2P文件共享应用(Gnutella、FastTrack、DirectConnect)。Moore[8]等学者,通过提取数据流量的五元组中的端口信息,用基于端口的方法识别出 KaZaA 流中的 TCP 端口 1214。Lua等学者,通过将数据流的长度和端口相结合,实现了对网络中的一些端口固定的数据进行识别。2.2应用层特征识别法
应用层特征识别法,又称为深层数据包检测法(Deep Packet Inspection:DPI),提出该方法的主要原因是因为基于端口识别方法存在的不确定性。因为大部分的 P2P 应用在其协议中都有明显的能够表明其属于何种应用的特征字信息,因此应用层特征识别法通过协议分析与还原技术,提取 P2P 应用层数据包中的有效载荷,再通过分析 P2P 载荷中所包含的协议关键字,,将其与已知的特征字信息进行匹配,从而判断所分析的数据流量是否属于 P2P 应用。在深层数据包检测 DPI 技术中,通过提取已知的 P2P 应用中的有效载荷后,再将这些关键字特征存储在特征库中。对于网络中的实时流量,通过模式匹配算法,如果待测流量中含有特征库中的某种关键字特征,则说明该条数据的应用类型就是何种 P2P 应用。对于早期的 P2P 应用来说,该方法还是比较有效的[16]。第三章 基于区间估计的惩罚因子优化法的 P2P 流量识别......... 21
3.1支持向量机理论概述 .............. 213.2SVM 算法中的核函数参数..................................... 28
3.3一种基于区间估计的惩罚因子寻优法 PFOMIE.............. 30
第四章 基于黄金分割的参数优法在 P2P 流量识别中的应用.............. 38
高斯径向基函数中参数寻优法的研究现状............ 38
一种基于黄金分割的参数寻优算法(POMGS)............... 41
第五章 基于多分类的增量学习算法的 P2P 流量识别方法.................... 52
SVM 增量学习算法的基本理论............ 52
SVM 的增量学习算法的相关研究.................. 53
一种多分类的 SVM 增量学习算法.................. 55
第六章基于优化 SVM 的 P2P 流量识别系统的设计与实现
6.1整个识别模型的设计策略
策略一:使用 SVM 算法进行初步训练和分类,前述章节已经就为何选择 SVM 的分类方法进行分类进行了深入的讨论和实验。从理论上来说,由于 P2P 流量的特征较多,一般的分类算法对于高维数据处理困难,而 SVM 恰是一种能够解决非线性可分问题的算法,该算法具有一定的自学习能力,不仅能够完成高维空间的分类,而且分类效果较好。因此,整个模型的分类功能,主要由 SVM 的算法为基础。策略二:为了能够将 SVM 分类算法很好地应用到 P2P 流量识别中,本文提出了优化 SVM算法的策略,即优化 SVM 核函数中的参数选择,因为核函数是影响 SVM 算法分类效果的重要因素,而其中核函数的参数更是将这种影响充分体现到具体的分类之中。因此,本文为了能够使 SVM 分类算法更好的进行 P2P 流量分类问题,提出了优化的寻找核函数参数的算法,并将其应用到 P2P 的分类模型中。6.2基于优化 SVM 的 P2P 流量分类模型
网络抓包分析模块是整个流量识别系统实现的基础。本模块主要负责捕获当前网络中的数据包信息。由于本模型为了提高识别精度需要获取 P2P 流量的行为统计特性,所以对单个的网络数据包预测能力相当有限。由于 P2P 流量的行为统计特性都是非数值性的,要将这些特征应用到 P2P 流量识别模型中,需要先将这些流量特征进行量化。基于这个思想,本文为每个 P2P 流量的统计特性建立时间的滑动窗口的量化模型。滑动窗口的具体实现流程如下:如图 6.1 所示,本模为了实现 P2P 流量特性的量化,利用滑动窗口机制的原理,将滑动窗口机制中的“以 个发送窗口”转变为抓包时连续抓取 以 秒的网络数据包。这样,P2P 流量的每个特性的量化值就可以借由 以 秒的连续网络流量的平均数据量获得,最后,本模块会将这 以 秒的连续网络流量分组保存下来,由流特征提取模块进行流量信息的提取与整理,从而获得的流量的统计特征等。
.....
第七章 总结与展望
本文主要针对网络中的 P2P 流量的识别问题展开,主要完成的工作有:(1)通过对 P2P 识别的现状研究分析,指出对于具有高维特征属性的 P2P 流量,不适合用传统的分类方法进行分类识别,而是需要寻求一个更适合识别高维度、特征变化多,并适合处理小样本的分类方法,因此提出使用 SVM 的方法对 P2P 流量进行分类和识别。(2)在现有基于 SVM 算法进行分类问题研究的基础上,本文结合 P2P 流量的特点,重点解决 SVM 算法中核函数的参数选择问题。本文针对惩罚参数选择的问题提出了一种基于区间估计的惩罚参数优化法 PFOMIE,并将该方法用在网络流量识别的实验中,实验结果表明,基于 PFOMIE 的 P2P 流量识别算法能够提高识别 P2P 流量时的效率和准确率。(3)针对高斯核函数中的参数协同工作的问题,本文通过分析比较网格搜索法、粒子群算法和遗传算法等算法在进行 SVM 核函数的参数选择时的各自特点,并结合 SVM 核函数参数自身参数空间分布的特点,提出了一种基于黄金分割点的参数协同寻优法 POMGS。并将该方法在网络流量识别仿真实验中进行验证,实验结果表明,本文提出的 POMGS 算法在识别P2P 流量的准确率、效率等方面都优于其他的参数寻优法。
.....
参考文献(略)
本文编号:239539
本文链接:https://www.wllwen.com/wenshubaike/caipu/239539.html