基于机器学习的P2P网络流分类研究

发布时间：2017-09-13 13:16

本文关键词：基于机器学习的P2P网络流分类研究

【摘要】：近年来，P2P网络凭借其对等、自由、开放的特性在互联网的诸多领域呈现出蓬勃发展的态势，，已经成为Internet网络流的主宰流量。P2P网络技术的发展给一方面给网络安全带来更大的威胁，另一方面，庞大的P2P流量吞噬而着网络带宽，使得非P2P网络的带宽得不到满足，给网络运营以及网络管理者带来全新的挑战。通过P2P流识别技术来加强管理和控制P2P流量是解决该难题的研究方向之一。然而随着互联网技术的发展，P2P应用为了适应网络环境，越来越多的使用动态端口、隧道技术以及协议加密等技术，这使得传统的利用端口和应用层特征等识别技术无法满足P2P流识别的要求。随着机器学习理论的不断成熟，其在医疗诊断、图像识别、音频识别以及网络安全领域的应用越来越广泛。机器学习利用数学统计知识和算法理论建立有效的学习模型，从数据层面挖掘内在规则，对信息量要求不大、不会涉及用户隐私，而且能够应对动态变化的数据环境，所以机器学习方法非常适合识别具有动态性的P2P网络流。本课题主要研究基于机器学习的P2P流分类方法，基于机器学习的P2P流识别利用P2P流统计特征建立分类模型，一方面如何从大量的P2P流统计特征中选出高效的特征集对于分类模型的分类效果有着深刻的影响；另一方面，如何建立分类模型也是最终分类效果的关键，本文主要内容如下： 1．由统计原理建立的P2P流数据拥有上百个特征，面对如此众多的特征，在ReliefF的基础上提出了一种改进算法ReliefF特征选择，能够删除ReliefF中的冗余特征，不但降低了特征维数，而且能提高特征集的分类能力。 2．对集成学习算法的研究中，比较分析了AdaBoost和Bagging集成学习的优劣，在Bagging的学习的基础上引入了选择性集成理念，基于分类器之间的差异性度量Q统计量设计了通过不断删除差异性最小的分类器来选择部分分类器集成的PBagging算法。基于决策树算法作基分类器，进行实验验证，发现PBagging能够提升Bagging的分类正确率，在不同分类器规模下，PBagging都能表现出比Bagging更高的分类准确性。 3．研究不同类型的分类器集成，提出了一种由贝叶斯分类器、SVM、决策树这3种分类器构成的集成模型，通过相关网络流数据进行实验发现该集成算法的分类正确率显著高于每个参与集成的单个分类器。本文的研究成果能有效提高特征选择的可利用价值，结合改进的集成学习算法能够进一步提高P2P流的识别率，对于P2P流的分类提供了全新的解决方案，将促进P2P流的管理和控制，也有助于建立更加可靠安全的互联网环境，进而营造和谐的网络氛围。
【关键词】：P2P流 机器学习 特征选择 集成学习 Bagging 决策树
【学位授予单位】：江南大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.02;TP181
【目录】：

摘要3-4
Abstract4-9
第一章绪论9-17
1.1 研究背景与研究意义9-11
1.1.1 研究背景9-10
1.1.2 研究意义10-11
1.2 P2P 流量识别的研究现状11-15
1.2.1 基于端口的 P2P 流识别11
1.2.2 基于应用层负载特征的 P2P 流识别11-12
1.2.3 基于行为特征的识别技术12-13
1.2.4 基于机器学习的 P2P 流量识别13-14
1.2.5 P2P 流分类面临的问题14-15
1.3 本文的主要工作15-17
1.3.1 本文的主要工作15
1.3.2 本文的组织和结构15-17
第二章基于机器学习的 P2P 流量识别理论分析17-27
2.1 引言17
2.2 问题描述17-18
2.2.1 相关定义17-18
2.2.2 P2P 流识别流程18
2.3 机器学习算法18-24
2.3.1 无监督学习算法18-20
2.3.2 有监督学习算法20-24
2.4 识别算法评估标准24-26
2.4.1 混淆矩阵24-25
2.4.2 评估方法25-26
2.5 本章小结26-27
第三章 P2P 流特征选择算法研究27-36
3.1 引言27
3.2 特征选择综述27-28
3.2.1 特征选择流程27
3.2.2 特征选择分类27-28
3.3 特征选择算法28-32
3.3.1 FCBF 算法28-29
3.3.2 CFS 算法29-31
3.3.3 ReliefF&特征选择31-32
3.4 实验分析32-35
3.4.1 实验数据32-33
3.4.2 实验平台和工具33-34
3.4.3 实验过程34-35
3.4.4 结果分析35
3.5 本章小结35-36
第四章基于集成学习算法的 P2P 流分类模型36-49
4.1 引言36
4.2 集成分类模型36-40
4.2.1 相关概念36-37
4.2.2 基于 AdaBoost 的分类模型37-38
4.2.3 基于 Bagging 的分类模型38-40
4.3 Bagging 算法的改进40-43
4.3.1 集成算法的原理分析40-41
4.3.2 Bagging 的选择性集成41
4.3.3 PBagging 集成学习算法41-43
4.4 基分类器的选择43-46
4.4.1 ID3 和 C4.5 决策树43-44
4.4.2 CART 决策树44-46
4.5 实验分析46-48
4.5.1 实验过程46-47
4.5.2 结果分析47-48
4.6 本章小结48-49
第五章基于非同质分类器集成的 P2P 流分类模型49-54
5.1 引言49
5.2 非同质器集成模型49-51
5.2.1 集成模型设计49
5.2.2 WEKA 功能简介49-51
5.3 实验分析51-52
5.3.1 实验过程51-52
5.3.2 结果分析52
5.4 本章小结52-54
主要结论与展望54-55
主要结论54
展望54-55
致谢55-56
参考文献56-59
附录：作者在攻读硕士学位期间发表的论文59

【参考文献】

中国期刊全文数据库前1条

1 李伟男;鄂跃鹏;葛敬国;钱华林;;多模式匹配算法及硬件实现[J];软件学报;2006年12期

本文编号：843914

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/843914.html

上一篇：2016年国家网络安全宣传周开幕
下一篇：一种改进的网络安全态势量化评估方法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|