网络协议识别关键技术研究
发布时间:2017-07-14 17:07
本文关键词:网络协议识别关键技术研究
更多相关文章: 未知协议识别 半监督学习 数据包抽样 特征选择 流量识别
【摘要】:近年来,随着网络技术的不断革新,涌现出各种新型未知网络协议,导致网络环境日益复杂;同时,网络带宽的快速增长使得网络流量急剧膨胀,给网络协议识别技术带来了极大的挑战。随着动态端口号和载荷加密等新兴技术的广泛应用,传统的识别方法开始逐渐地失去识别能力,而基于机器学习的识别方法能够克服传统识别方法的不足,获得较好的识别效果,展现出对未知协议和加密协议的识别能力,具有更好的应用前景。本文利用机器学习方法对网络协议识别中若干关键问题进行深入研究。在已知网络协议识别领域,多媒体流量占据了绝大部分的网络流量,使得网络流量比例严重失衡,给其他协议的识别造成干扰;网络数据特征的维度过高会大大提高学习算法的复杂度,严重影响算法的分类性能。本文针对多媒体流量的数据包抽样和网络数据的特征选择这两个关键问题展开深入分析。在未知网络协议识别领域,本文重点研究训练集中出现未知协议样本的识别问题。主要的研究成果如下:1、提出一种面向多媒体流量的数据包自适应抽样方法,在保证数据包信息完整性的情况下,有效地减轻网络数据结构的失衡。该方法充分利用数据包两个特征PS和IAT的相关性,通过MSVR算法实现对特征PS和IAT的同时预测,根据预测结果自适应地调整抽样概率,选择更具代表性的数据包用于流量分类。实验结果表明该方法能够有效地剔除冗余的数据包,减少抽样造成的信息损失,保存数据包信息的完整性,同时提高流量的分类性能。2、提出一种基于类标记扩展的半监督特征选择方法,解决了传统半监督特征选择方法无法实现相关性强的多类网络数据特征的选择问题。该方法利用少量标记样本辅助K-means聚类方法实现对大量未标记样本的标签标记,获得一个全标记的训练样本集;通过MDrSVM算法计算每类样本的特征权重,实现对多类数据的特征选择。实验结果表明该方法可以选择相关性强的特征子集,提高网络流量的分类性能。3、提出一种基于改进直推式支持向量机的未知网络协议识别方法,解决了算法训练过程中出现未知网络协议样本的类别增量学习问题。该方法基于半监督分类策略,通过引入增类损失函数刻画在算法训练过程中新增未知协议样本的损失代价,建立UPCTSVM的优化模型并推导其求解过程,最终构建的分类模型能够识别新增的未知协议数据。通过真实的网络数据集进行仿真分析,实验结果表明该方法在识别未知网络协议的可行性和有效性方面均有良好表现。4、提出一种基于半监督聚类集成的未知网络协议识别方法,解决了训练集中标记样本比例不足和聚类结果不稳定的问题。该方法基于半监督聚类策略,利用流的相关性实现对标记样本的扩展,提高训练集中标记样本比例;引入集成学习方法辅助半监督聚类实现对未知协议数据的识别,提高聚类结果的稳定性;最后利用协议细分类模型实现对获得的混合未知协议样本集进行再分类。实验结果表明该方法在样本标记比例不足情况下,能够有效地识别出未知协议数据,实现对未知协议的细分类,获得较好的分类结果。
【关键词】:未知协议识别 半监督学习 数据包抽样 特征选择 流量识别
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.04
【目录】:
- 摘要4-6
- Abstract6-12
- 第一章 绪论12-18
- 1.1 研究背景及意义12
- 1.2 国内外研究现状12-16
- 1.2.1 传统的协议识别技术的研究现状12-13
- 1.2.2 基于机器学习的协议识别技术的研究现状13-16
- 1.3 论文的主要工作及结构安排16-18
- 第二章 面向多媒体流量的数据包自适应抽样方法18-30
- 2.1 引言18
- 2.2 特征的相关性分析18-20
- 2.3 EAPM系统模型20-25
- 2.3.1 理想抽样模型20-22
- 2.3.2 多输出支持向量回归机22-23
- 2.3.3 自适应抽样策略23-25
- 2.4 实验分析25-28
- 2.4.1 计算复杂度分析25-26
- 2.4.2 抽样性能分析26
- 2.4.3 分类性能分析26-28
- 2.5 本章小结28-30
- 第三章 基于类标记扩展的半监督网络数据特征选择方法30-38
- 3.1 引言30
- 3.2 SFSEL系统模型30-34
- 3.2.1 基于K-means的样本标记扩展30-32
- 3.2.2 基于MDrSVM算法的特征选择32-33
- 3.2.3 SFSEL方法描述33-34
- 3.3 实验分析34-37
- 3.3.1 实验数据34-35
- 3.3.2 实验结果及分析35-37
- 3.4 本章小结37-38
- 第四章 基于半监督学习的未知网络协议识别方法38-57
- 4.1 引言38
- 4.2 基于改进直推式支持向量机的识别方法38-46
- 4.2.1 问题描述38-39
- 4.2.2 UPCTSVM工作原理39-42
- 4.2.3 实验分析42-46
- 4.2.3.1 实验数据42-44
- 4.2.3.2 实验结果分析44-46
- 4.3 基于半监督聚类集成的识别方法46-54
- 4.3.1 问题描述46-47
- 4.3.2 UPCSS系统模型47-50
- 4.3.2.1 标记样本扩展47-48
- 4.3.2.2 半监督聚类集成48-50
- 4.3.2.3 协议细化分50
- 4.3.2.4 计算复杂度分析50
- 4.3.3 实验结果分析50-54
- 4.4 本章小结54-57
- 第五章 结束语57-60
- 5.1 论文工作总结57-58
- 5.2 进一步工作展望58-60
- 致谢60-62
- 参考文献62-68
- 作者简历68
【参考文献】
中国期刊全文数据库 前10条
1 王变琴;余顺争;;未知网络应用流量的自动提取方法[J];通信学报;2014年07期
2 代琨;于宏毅;李青;;一种基于支持向量机的特征选择算法[J];模式识别与人工智能;2014年05期
3 赵博;郭虹;刘勤让;邬江兴;;基于加权累积和检验的加密流量盲识别算法[J];软件学报;2013年06期
4 李平红;王勇;陶晓玲;;基于成对约束扩展的半监督网络流量特征选择算法[J];传感器与微系统;2013年05期
5 张震;汪斌强;伊鹏;兰巨龙;;一种分层组合的半监督近邻传播聚类算法[J];电子与信息学报;2013年03期
6 王涛;余顺争;;基于机器学习的网络流量分类研究进展[J];小型微型计算机系统;2012年05期
7 丁要军;蔡皖东;;采用两阶段策略模型(KTSVM)的P2P流量识别方法[J];西安交通大学学报;2012年02期
8 叶吉祥;龚希龄;;一种快速的Wrapper式特征子集选择新方法[J];长沙理工大学学报(自然科学版);2010年04期
9 王博;贾焰;田李;;基于类标号扩展的半监督特征选择算法[J];计算机科学;2009年10期
10 邓超;郭茂祖;;基于Tri-Training和数据剪辑的半监督聚类算法[J];软件学报;2008年03期
,本文编号:541901
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/541901.html