当前位置:主页 > 管理论文 > 移动网络论文 >

基于聚类和有噪声数据的网络流量分类

发布时间:2021-11-14 16:29
  准确的网络流量分类在网络安全领域中至关重要,有很多应用程序使用动态端口和加密算法来规避检测,而诸如基于端口和基于载荷的分类方式存在很大的不足。后续又出现了将机器学习算法运用到流量分类领域。以往的流量分类只是单独的对数据做聚类或者分类分析,对于聚类的结果并没有研究如何实现快速有效标记。同时对流量分类进行有监督方法时,大家研究的焦点主要集中在如何提高分类算法准确率上面,对于训练集本身缺乏关注。目前对训练集的选择主要使用权威数据集或者自身采集,然而无论哪种方法都需要耗费大量的人工去标记数据,降低了研究的效率。所以针对以上问题我们提出了将无监督方法和有监督方法相结合的基于聚类和有噪声数据的网络流量分类方法。针对聚类问题,为进一步研究降维给数据带来的影响,本文使用PCA线性变换和GainRatio特征变换算法对原数据集进行降维处理,并采用K-Means、Canopy、FarthestFirst三种硬聚类算法对降维的数据进行聚类,以研究数据降维对聚类算法产生的影响。针对自动标注问题,本文首先提出使用Resample抽样算法对聚类结果进行极小化抽样的方法给聚类各个簇进行有噪声标记,并实时将抽样准确率... 

【文章来源】:广州大学广东省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于聚类和有噪声数据的网络流量分类


无监督学习流量分类过程

过程图,监督学习,流量,过程


广州大学硕士毕业论文10图3-2有监督学习流量分类过程3.2抽样标记分类模型设计传统流量分类模型的两个阶段跳过了一个很重要的环节,对第二步的簇标记过程没有深入研究,目前仅为纯人工标记。有监督分类过程并未真正解决训练集的来源问题,目前训练集均来自知名数据集或者人工逐条标记数据集,这部分会消耗大量的人力物力。如今的网络变换万千,我们迫切希望能在真实网络环境中截取流量包,并以最小的人工代价对获取的数据流进行标记。本模型是将无监督学习与有监督学习分类结合,首先使用无监督学习分类方式生成簇,然后采用抽样方式对簇进行标记产生有噪声分类数据,最后使用有监督模型评估有噪声数据,形成完整的数据集、标记、训练分类器、预测未知数据的流量分类闭环。如图3-3所示。该模型主要分为如下几个阶段。图3-3抽样标记分类模型1、基于主成分分析降维方法进行流量聚类。主成分分析(PrincipalComponentsAnalysis)方法将MOORE数据集属性从248个减少到30个,同时WIDE08的数据集从21个减少到15个,并使用信息增益率(GainRatio)特征变换和全特征集作为比较。最后运用多种聚类算法来比较降维前后聚类准确率的变化。聚类算法主要分为硬聚类和软聚类两种类型。本文主要探讨K-Means、Canopy和FarthestFirst三种硬聚类算法在数据进行降维处理后聚类准确率的变化,其中Canopy也是首次运用到流量聚类当中。第4

模型图,模型,聚类,数据集


广州大学硕士毕业论文10图3-2有监督学习流量分类过程3.2抽样标记分类模型设计传统流量分类模型的两个阶段跳过了一个很重要的环节,对第二步的簇标记过程没有深入研究,目前仅为纯人工标记。有监督分类过程并未真正解决训练集的来源问题,目前训练集均来自知名数据集或者人工逐条标记数据集,这部分会消耗大量的人力物力。如今的网络变换万千,我们迫切希望能在真实网络环境中截取流量包,并以最小的人工代价对获取的数据流进行标记。本模型是将无监督学习与有监督学习分类结合,首先使用无监督学习分类方式生成簇,然后采用抽样方式对簇进行标记产生有噪声分类数据,最后使用有监督模型评估有噪声数据,形成完整的数据集、标记、训练分类器、预测未知数据的流量分类闭环。如图3-3所示。该模型主要分为如下几个阶段。图3-3抽样标记分类模型1、基于主成分分析降维方法进行流量聚类。主成分分析(PrincipalComponentsAnalysis)方法将MOORE数据集属性从248个减少到30个,同时WIDE08的数据集从21个减少到15个,并使用信息增益率(GainRatio)特征变换和全特征集作为比较。最后运用多种聚类算法来比较降维前后聚类准确率的变化。聚类算法主要分为硬聚类和软聚类两种类型。本文主要探讨K-Means、Canopy和FarthestFirst三种硬聚类算法在数据进行降维处理后聚类准确率的变化,其中Canopy也是首次运用到流量聚类当中。第4

【参考文献】:
期刊论文
[1]特征选择方法与算法的研究[J]. 李敏,卡米力·木依丁.  计算机技术与发展. 2013(12)
[2]P2P流量识别技术综述[J]. 刘三民,孙知信.  计算机科学. 2011(10)



本文编号:3494970

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3494970.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4e77e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com