基于机器学习的异常数据流量分类

发布时间：2020-07-24 21:57

【摘要】：随着互联网的快速发展,网络使用频率的提高,网络数据流量也随之大量增长,由此出现了许多针对各种网络服务的攻击行为,给网络安全带来了严峻的挑战。因此,识别并且分类出数据流量中的恶意数据包是防御技术中的一个研究重点。本文首先介绍了基于端口识别和基于深度数据包解析等技术的原理过程,并说明其自身的缺陷导致无法满足现有网络的应用需求,以此引出基于机器学习方法的数据包分类识别技术,包括朴素贝叶斯算法、C4.5决策树算法、支持向量机(SVM)算法、K-Means聚类算法等,对算法的论证过程进行梳理。然后通过Pcap库函数捕获原始数据包,选取适合机器学习使用的流属性,作为样本特征集合。文章采用KDD99经典数据集,实验以对测试集的分类准确率为结果标准。在已有算法的基础上,文章提出两种改进的策略,分别是对训练样本属性进行加权为基础的改进以及结合K-Means++聚类和支持向量机两种模型优点的综合改进。第一种改进方法是针对网络数据包之间的连续性和相关性提出的改进,数据包在网络环境中是以流的形式存在,并非独立无关的,同种类型数据包的某些属性可能相同,因此,取每一属性项所属的类别的数目占总实例数的比例为权值,将权值视为一种影响因子,删除权值基本为0的属性,保留取值多元化的属性,降低训练复杂度,实验结果显示在分类准确度基本保持不变的情况下训练的速度明显提高;第二种改进方法是结合了K-Means++聚类和支持向量机的综合模型,将待测数据集经过K-Means++算法聚类处理后,得到若干个以聚类质心为中心的簇,再将经过初始聚类的数据集用于训练支持向量机的分类器,这样既能够避免支持向量机训练时对于样本特征非常耗时的人工提取阶段,又可以利用到无监督聚类算法快速训练的优势,实验结果表明这种综合模型能够有效的增加支持向量机算法的分类精度,并且缩短了训练时间。通过本文的研究,证明了机器学习方法在流量分类的应用中有着良好的效果,同时本文改进的方法也能克服原有机器学习算法的缺点,实现更高效的分类。
【学位授予单位】：武汉纺织大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP393.06;TP181
【图文】：

流程图,机器学习,数据流量,流程

图 1.1 基于机器学习的数据流量分类流程分类过程可以分为三个阶段：是数据准备阶段。这一阶段是为分类做前期准备，主要的工作是根性，对每个特征属性进行划分，然后对整体数据集进行分类，得到训分类数据都作为本阶段的数据输入，对应的输出就是训练样本集和预处理过程是整个分类过程中唯一需要人工完成的阶段，因此处理器的质量主要由特征属性划分的质量和训练样本的质量共同决定。是分类器的训练阶段。该阶段的最终目标就是为了生成分类器，主本中各种类别的频率和计算特征属性划分类别的条件概率。它的输及包含的特征属性，输出是分类器。该阶段是机器处理的过程，由是应用测试阶段。此阶段的任务是利用第二阶段生成的分类器对未类，将分类器和待分类集作为整体输入，则输出就是待分类集与所阶段为机器学习阶段，由程序完成。内外研究成果

模型图,决策树,模型

1-特征属性 2-类别图 2.1 决策树模型从根节点开始，首先测试实例的特征，然后根据测试结果点，每个实例只能被一个路径或者规则所覆盖。同时，决即每个叶节点上的分类最终表示着属于该类的概率较大[20]策树算法概述由 ID3 算法改进而来，ID3 算法主要是通过递归的方式来D3 算法的基础上，通过对连续的属性值的离散化，避免了另外，C4.5 算法的属性项选择标准不再是 ID3 算法中的信益率，这样就避免了在选择信息增益时将属性值偏向更多中减少了对样本分布的依赖性[21]。的主要问题就是建立节点的划分选择规则，这也是决策树.5 算法是根据信息增益率来选择节点属性来进行分裂。in Ratio）由信息增益（Information Gain)和分裂信息(Split (2.6)所示:

超平面

),(,),,(,)}1 122nnT xyxy xy训练集线性可分，如图2.2 所示，有两类数据，分类的目标是寻找一个超平面，将两类数据分开。在二维平面中，分类超平面就是一条直线，从图中可以看出，能将训练样本分开的超平面有很多可能（图中虚线），超平面除了要将训练集中的数据分开，还要有较好的泛化性能，需要把测试集中的数据也划分开。而实线距离两类数据点均较远，对于数据局部扰动的容忍性较好，能够以较大的置信度将数据进行分类，是最好的一个超平面。图 2.2 超平面

【参考文献】