基于机器学习的P2P流量识别算法研究
本文选题:P2P + 流量识别 ; 参考:《河南理工大学》2014年硕士论文
【摘要】:P2P技术的快速发展使得P2P流量在网络流量中的比重越来越大,到目前为止,P2P流量成为网络中所占比重最大的流量,这对网络管理造成了巨大的困难,对流量监控技术提出了更高的要求。与此同时,P2P应用为了躲避检测,正在向可以随机选择端口号进行通信和对应用层数据加密的方向发展,因此,造成早期的流量识别技术对P2P流量的识别准确率降低,无法达到预期的要求,目前机器学习的方法逐渐兴起,在流量识别中的应用由于具有不依赖端口号与负载信息的优势,得到了研究界的广泛关注。本文对首先P2P技术进行了分析,包括P2P技术的定义、网络结构、特点以及应用类型,对现阶段的P2P流量识别技术进行了总结,并重点分析研究了在P2P流量识别中的机器学习算法。接下来深入研究了机器学习中的K均值与决策树算法,针对决策树模型在标签样本稀少的情况下识别准确率不高的问题,提出一种基于K均值与决策树的P2P流量识别算法。为提高K均值聚类的准确性,为决策树训练提供准确的标签样本,首先提出一种改进的K均值半监督聚类,通过用标签样本与贪心算法对初始聚类中心进行选定,然后对样本数据聚类,采用最大似然估计对聚类结果和实际网络应用类型进行匹配,提高了K均值算法的聚类性能。然后采用改进的K均值半监督聚类算法对含有大量无标签样本和少量标签样本的训练数据集进行预处理,用得到的含有大量标签样本的新训练集构建决策树分类模型。最后的实验结果表明,在标记样本较少的情况下,新算法对P2P流量的识别能力较好。
[Abstract]:The rapid development of P2P technology makes the proportion of P2P traffic in network traffic more and more large, so far, P2P traffic has become the largest volume of traffic in the network, which has caused great difficulties for network management and higher requirements for traffic monitoring technology. In the same time, P2P applications are going to be random in order to avoid detection. The port number is selected for communication and the direction of encryption of the application layer data is developed. Therefore, the early flow recognition technology reduces the recognition accuracy of the P2P traffic and can not meet the expected requirements. At present, the method of machine learning is gradually rising, and the application in traffic recognition is based on the advantages of not relying on port number and load information. This paper analyzes the first P2P technology, including the definition of P2P technology, network structure, characteristics and application types, summarizes the current P2P flow recognition technology, and focuses on the machine learning algorithm in P2P traffic identification. Then, the K in machine learning is studied in depth. In order to improve the accuracy of the K mean and the decision tree, an improved P2P mean semi supervised clustering algorithm is proposed to improve the accuracy of the K mean clustering, and a modified K mean semi supervised clustering algorithm is proposed. Class, by selecting the initial clustering center with the label sample and the greedy algorithm, then clustering the sample data, using the maximum likelihood estimation to match the clustering results and the actual network application types, the clustering performance of the K mean algorithm is improved. Then the improved K mean semi supervised clustering algorithm is used to contain a large number of unlabeled samples. The training data set is preprocessed with a small number of label samples, and a decision tree classification model is constructed with the new training set containing a large number of label samples. The final experimental results show that the new algorithm has better recognition ability for P2P traffic under the case of fewer marked samples.
【学位授予单位】:河南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.06
【相似文献】
相关期刊论文 前10条
1 杨铮;李国元;左敏;;一个嵌入式网络流量识别系统的设计与实现[J];计算机系统应用;2008年06期
2 辛峰;於建华;;互联网流量识别技术的研究及实现[J];广东通信技术;2008年03期
3 李晗;刘泷;;应用层流量识别方法的研究[J];广东通信技术;2008年04期
4 梁伟;李晗;;网络流量识别方法研究[J];通信技术;2008年11期
5 张玲;李君;孙雁飞;;快速应用层流量识别方法的研究与实现[J];电信快报;2009年10期
6 葛体富;;网络流量识别技术以及实现方案浅议[J];电脑知识与技术;2011年22期
7 侯艳;;基于深度包和流的流量识别系统设计[J];电子设计工程;2013年22期
8 马保雷;宋颖慧;刘亚维;;基于概念漂移检测的自适应流量识别的研究[J];智能计算机与应用;2013年06期
9 张众;杨建华;谢高岗;;高效可扩展的应用层流量识别架构[J];通信学报;2008年12期
10 吴震;刘兴彬;童晓民;;基于信息熵的流量识别方法[J];计算机工程;2009年20期
相关会议论文 前7条
1 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 张娜娜;;P2P流量识别方法研究[A];江苏省电子学会2010年学术年会论文集[C];2010年
3 高长喜;辛阳;钮心忻;杨义先;;基于行为特征分析的P2P流量识别技术的研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
4 许刘兵;;基于人工神经网络的P2P流量识别模型的研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
5 贾波;邹园萍;;基于无监督学习的P2P流量识别[A];浙江省信号处理学会2011学术年会论文集[C];2011年
6 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
7 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
相关博士学位论文 前6条
1 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年
2 田旭;互联网流量识别技术研究[D];北京邮电大学;2012年
3 彭建芬;P2P流量识别关键技术研究[D];北京邮电大学;2011年
4 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
5 李冰;VoIP和P2P IPTV流量的识别与测量研究[D];天津大学;2010年
6 郭振滨;互联网测量与建模研究[D];北京交通大学;2012年
相关硕士学位论文 前10条
1 王晓明;家庭网络流量识别与QoS控制[D];山东大学;2015年
2 石林;基于DPI的流量识别方法研究与应用[D];江西理工大学;2015年
3 武光达;基于DPI的流量识别系统设计[D];贵州大学;2015年
4 罗平;网络层流量识别与关键内容提取系统设计与实现[D];电子科技大学;2014年
5 白宇;基于马尔可夫链的加密流识别系统研究与实现[D];北京理工大学;2015年
6 谭静;基于机器学习的P2P流量识别算法研究[D];河南理工大学;2014年
7 练琪;基于聚类分析的应用层流量识别研究[D];湖南大学;2010年
8 朱欣;基于数据流挖掘技术的流量识别[D];苏州大学;2011年
9 张波;基于流特征的加密流量识别技术研究[D];哈尔滨工业大学;2012年
10 孙海霞;基于关联规则的流量识别方法研究[D];合肥工业大学;2009年
,本文编号:1992444
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1992444.html