基于机器学习的异常数据流量分类
【学位授予单位】:武汉纺织大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.06;TP181
【图文】:
图 1.1 基于机器学习的数据流量分类流程分类过程可以分为三个阶段:是数据准备阶段。这一阶段是为分类做前期准备,主要的工作是根性,对每个特征属性进行划分,然后对整体数据集进行分类,得到训分类数据都作为本阶段的数据输入,对应的输出就是训练样本集和预处理过程是整个分类过程中唯一需要人工完成的阶段,因此处理器的质量主要由特征属性划分的质量和训练样本的质量共同决定。是分类器的训练阶段。该阶段的最终目标就是为了生成分类器,主本中各种类别的频率和计算特征属性划分类别的条件概率。它的输及包含的特征属性,输出是分类器。该阶段是机器处理的过程,由是应用测试阶段。此阶段的任务是利用第二阶段生成的分类器对未类,将分类器和待分类集作为整体输入,则输出就是待分类集与所阶段为机器学习阶段,由程序完成。内外研究成果
1-特征属性 2-类别图 2.1 决策树模型从根节点开始,首先测试实例的特征,然后根据测试结果点,每个实例只能被一个路径或者规则所覆盖。同时,决即每个叶节点上的分类最终表示着属于该类的概率较大[20]策树算法概述由 ID3 算法改进而来,ID3 算法主要是通过递归的方式来D3 算法的基础上,通过对连续的属性值的离散化,避免了另外,C4.5 算法的属性项选择标准不再是 ID3 算法中的信益率,这样就避免了在选择信息增益时将属性值偏向更多中减少了对样本分布的依赖性[21]。的主要问题就是建立节点的划分选择规则,这也是决策树.5 算法是根据信息增益率来选择节点属性来进行分裂。in Ratio)由信息增益(Information Gain)和分裂信息(Split (2.6)所示:
),(,),,(,)}1 122nnT xyxy xy训练集线性可分,如图2.2 所示,有两类数据,分类的目标是寻找一个超平面,将两类数据分开。在二维平面中,分类超平面就是一条直线,从图中可以看出,能将训练样本分开的超平面有很多可能(图中虚线),超平面除了要将训练集中的数据分开,还要有较好的泛化性能,需要把测试集中的数据也划分开。而实线距离两类数据点均较远,对于数据局部扰动的容忍性较好,能够以较大的置信度将数据进行分类,是最好的一个超平面。图 2.2 超平面
【参考文献】
相关期刊论文 前9条
1 邓职洁;王勇;陶晓玲;;基于FPGA的二次加权NB网络流量分类方法[J];计算机工程与设计;2012年11期
2 张倩;杨耀权;;基于支持向量机核函数的研究[J];电力科学与工程;2012年05期
3 张立仿;张喜平;柴旭清;闫娟;;基于TAN的网络流量分类方法[J];计算机工程与设计;2011年12期
4 丁晓剑;赵银亮;;无偏置ν-SVM分类优化问题研究[J];电子与信息学报;2011年08期
5 朱欣;赵雷;杨季文;;基于CVFDT的网络流量分类方法[J];计算机工程;2011年12期
6 奉国和;;SVM分类核函数及参数选择比较[J];计算机工程与应用;2011年03期
7 李钧涛;杨瑞峰;左红亮;;统计机器学习研究[J];河南师范大学学报(自然科学版);2010年06期
8 杨伟;方涛;许刚;;基于朴素贝叶斯的半监督学习遥感影像分类[J];计算机工程;2010年20期
9 王洪春;;贝叶斯公式与贝叶斯统计[J];重庆科技学院学报(自然科学版);2010年03期
相关硕士学位论文 前7条
1 尹嘉鹏;支持向量机核函数及关键参数选择研究[D];哈尔滨工业大学;2016年
2 杨宜辰;基于机器学习的网络流量分类技术研究与应用[D];安徽理工大学;2014年
3 宋永东;支持向量机参数选择的研究[D];华中师范大学;2013年
4 胡婷;基于神经网络的网络流量分类方法研究[D];桂林电子科技大学;2011年
5 邓河;基于机器学习方法的网络流量分类研究[D];湖南工业大学;2009年
6 周龙;基于朴素贝叶斯的分类方法研究[D];安徽大学;2006年
7 谢芳芳;基于支持向量机的故障诊断方法[D];湖南大学;2006年
本文编号:2769444
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2769444.html