当前位置:主页 > 管理论文 > 移动网络论文 >

基于机器学习的网络流量分类技术研究与应用

发布时间:2020-10-20 07:37
   随着信息技术的蓬勃发展,种类繁多的互联网应用产生的大量流量占用了很多网络资源,在给服务质量带来巨大挑战的同时也给互联网安全产生负面影响。为了高效地利用网络资源并为网络管理者提供有效的管控手段,以辨别应用层协议为目的的网络流量分类技术成为近年来的研究热点问题。文章以此为研究背景,以具有相同五元组的传输层双向报文序列为研究对象,对基于机器学习的网络流量分类技术进行研究并加以应用。 文章首先介绍了基于知名端口号、基于特征字匹配等传统的网络流量分类技术,但因其固有的缺陷导致分类精度已难以满足现阶段的需求,故引出基于机器学习的网络流量分类技术。随后文章对机器学习中的朴素贝叶斯、C4.5决策树、支持向量机以及集成学习分类算法进行了研究。 之后,根据上述机器学习算法的特点,文章提出两种改进的分类算法,分别是以样本缩减策略为基础的基于支持向量机的改进算法以及基于结果反馈的机器学习改进算法。第一种改进算法以信息增益率和样本质心为理论基础,将对分类结果影响不大的属性和靠近样本质心的样本点删除,只用可能成为支持向量的样本点进行训练,在保证正确率的同时增加了训练效率;第二种改进算法以分类器的误判样本集合为基础,将误判样本的正确分类结果反馈给测试样本,以增加分类器对测试样本的分类精度。 最后,文章对数据包捕获、流形成、流属性确定、流样本标记流程、连续数据离散化进行了描述,并利用经典数据集对基于机器学习的网络流量分类算法及其改进算法进行应用。实验结果表明机器学习分类算法能够避免传统分类算法的缺陷,将不同应用层协议产生的流量高精度地分类。对改进算法的实验结果表明,基于支持向量机的改进算法在保持精度不变的基础上大幅度缩短了训练时间,基于结果反馈的机器学习改进算法成功地利用误判集合将正确结果反馈给待测样本,增加了分类精度。验证了改进算法在训练效率与精度上对原算法的提升。
【学位单位】:安徽理工大学
【学位级别】:硕士
【学位年份】:2014
【中图分类】:TP181;TP393.06
【文章目录】:
摘要
Abstract
目录
Contents
插图清单
附表清单
1 绪论
    1.1 研究背景
    1.2 研究现状
    1.3 主要研究内容及本文组织结构
2 网络流量分类方法概述
    2.1 网络流量及流量分类的定义
        2.1.1 TCP/IP协议族
        2.1.2 网络流的概念
        2.1.3 网络流量分类的定义
    2.2 基于知名端口号的流量分类算法概述
    2.3 基于特征字匹配的流量分类算法概述
    2.4 基于机器学习的流量分类算法概述
3 基于机器学习的网络流量分类算法研究
    3.1 基于朴素贝叶斯分类模型的网络流量分类
        3.1.1 贝叶斯法则
        3.1.2 朴素贝叶斯分类算法
    3.2 基于C4.5决策树的网络流量分类
        3.2.1 决策树简介
        3.2.2 C4.5决策树分类算法
    3.3 基于支持向量机的网络流量分类
        3.3.1 支持向量机简介
        3.3.2 最优分类超平面
        3.3.3 线性不可分的支持向量机
    3.4 基于集成学习的网络流量分类
        3.4.1 集成学习的概念
        3.4.2 集成学习的流程
4 基于机器学习的网络流量分类算法改进
    4.1 基于支持向量机的网络流量分类算法改进
        4.1.1 基于信息增益率的流量属性选择
        4.1.2 基于质心的样本缩减策略
    4.2 基于结果反馈的机器学习分类算法
        4.2.1 误判集合与样本相似
        4.2.2 基于结果反馈的机器学习分类算法流程
5 基于机器学习的网络流量分类算法应用
    5.1 网络流量样本数据的获取
        5.1.1 常用流量采集工具
        5.1.2 流量属性的确定
        5.1.3 网络流样本的标记
    5.2 连续数据的离散化
    5.3 实验及结果分析
        5.3.1 数据集与实验工具
        5.3.2 实验评价指标
        5.3.3 实验结果分析
    5.4 改进算法的实验验证
        5.4.1 基于支持向量机的网络流量分类改进算法实验
        5.4.2 基于结果反馈的机器学习分类算法实验
6 总结与展望
    6.1 文章总结
    6.2 今后的工作
参考文献
致谢
作者简介及读研期间主要科研成果

【参考文献】

相关期刊论文 前10条

1 徐鹏;刘琼;林森;;基于支持向量机的Internet流量分类研究[J];计算机研究与发展;2009年03期

2 饶刚;刘琼荪;;基于Fisher鉴别分析的支持向量机训练样本缩减策略[J];计算机工程与应用;2012年03期

3 罗瑜;易文德;王丹琛;何大可;;大规模数据集下支持向量机训练样本的缩减策略[J];计算机科学;2007年10期

4 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期

5 于真;;基于支持向量机的人脸识别技术研究[J];计算机仿真;2011年12期

6 徐鹏;林森;刘琼;;基于决策树的流量分类方法[J];计算机应用研究;2008年08期

7 常旭;李义杰;刘万军;;CDC与REP结合的决策树剪枝优化算法[J];计算机工程;2012年14期

8 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期

9 郭超;张雪英;刘晓峰;;支持向量机在低信噪比语音识别中的应用[J];计算机工程与应用;2013年05期

10 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期


相关博士学位论文 前2条

1 范洪博;快速精确字符串匹配算法研究[D];哈尔滨工程大学;2011年

2 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年



本文编号:2848403

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2848403.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dfa67***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com