当前位置:主页 > 管理论文 > 领导决策论文 >

不均衡网络流量的分类研究

发布时间:2021-06-14 10:43
  随着网络科技的飞速发展,互联网中流量数据和应用种类也在急剧增长,因此在网络管理控制中如何有效识别各类型的网络流量成为了重点问题.识别各类型的网络流量首先是对网络流量数据的分类,在实际问题中,对网络流量数据进行分类时应注意网络流量中的应用类型存在不均衡的问题.在不均衡网络流量中,多数类网络流量数据一般为用户使用多的应用类型数据,网络流量的精确识别可以帮助网络运营商提供更好的服务质量,少数类网络流量的有效识别可以用于发现设备故障、异常流量的检测以及病毒入侵和恶意攻击,以提高网络的安全性.首先,分析使用不同类型的训练集对不均衡网络流量的分类效果.本文使用SMOTE+Tomek Link重抽样方法对原始数据集进行抽样,构成均衡和不均衡的7个数据集作为其训练集,并使用XGBoost算法对其进行分类,研究不均衡和均衡的训练集对不均衡网络流量的分类结果的影响.在测试集和验证集进行实验,结果表明同比例的不均衡训练集得到的分类模型对不均衡网络流量的分类结果影响不大,均衡的训练集得到的分类模型在不降低整体分类准确率前提下,可以提高少数类别的精确率和召回率,分类效果较好.其次,网络流量数据具有较多的特征,为... 

【文章来源】:长春理工大学吉林省

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

不均衡网络流量的分类研究


各类与特征A1在二维空间上的分布

二维空间


第4章基于卡方方法及对称不确定性的特征选择方法23第4章基于卡方方法及对称不确定性的特征选择方法不均衡网络流量的不均衡性不仅存在于类别的不均衡中,也存在于网络流数据中,因此本章研究网络流量中的特征,通过对特征的分析,提出了基于卡方方法及对称不确定性的特征选择方法,研究了特征的选择对不均衡网络流量的分类研究的影响.4.1相关性分析在对Moore数据集直接分类时,由于各类网络流数目差异较大,因此在使用有监督的分类器对其分类时会使得分类器学习更多的多数类样本,进而将样本更多地分到多数样本中去,使得少数类的分类精确率和召回率降低,因此考虑在特征层面对其进行处理.虽然低维特征空间分布不能完全反应高维特征空间分布特性,但是一些区分性较强的特征的分布在一定程度上可以表明数据的特性.预处理后网络流量各个类别包含247个特征,观察各类别在其特征上的空间分布,分析各类别与特征的关系以及特征与特征之间的关系.图4.1为entry01中各类与特征1A在二维空间上的分布,图4.2为特征1A与特征97A在二维空间上的分布.图4.1各类与特征A1在二维空间上的分布图4.2特征A1与特征A97在二维空间上的分布图4.1和图4.2表明了类别与特征以及特征与特征之间可能存在一定的相关关系,

关系图,准确率,迭代次数


第5章XGBoost模型参数优化34XGBoost分类模型在数据集上的表现却不简单.XGBoost算法在训练过程中有很多可以优化的参数,为了提高该模型的泛化能力,需要优化XGBoost分类模型中的参数,以便更好地对不均衡网络流量进行分类.5.2.2XGBoost参数优化网格搜索算法(GridSearch,GS)[56],被广泛地应用于机器学习的算法的参数优化.GS算法的主要思想是:首先对每个参数进行分割,根据参数12ix,i,,,n的取值范围,按照一定的步长进行分割,其形式为iiiiyyyUxmin,step,max;其次,顺着参数的不同方向生成网格12nUxUxUx,其中的各个网格点即为参数组;最后,使用交叉验证的评价方法对每个参数组下的平均分类准确率进行评价,重复此步骤,最终选取出平均分类准确率最高的参数组.我们首先进行XGBoost算法中的迭代次数的优化,设置一个较高的学习率eta,学习率相当于XGBoost基分类器在每次迭代时决策树的权重,分类不同的目标时,最优的学习率一般都在0.05至0.3之间.设置初始学习率为0.15,然后根据实验去选择最优的迭代的次数,图5.2为迭代次数和整体准确率的关系图.图5.2迭代次数与整体准确率的关系从图5.2中可以看出,XGBoost分类器在迭代过程中,训练集的总体准确率初始时会跟随迭代次数的增加而上升,之后保持稳定,最终趋于平稳,数据均衡的测试集的总体准确率在迭代110次后保持平稳,为了更好地使得模型分类效果和泛化能力较强,在识别不同网络流量时设置XGBoost算法的迭代次数为110次.然后进行基分类器参数的优化,即决策树的深度、最小叶子节点样本权重和、决策树在分裂时特征采样比例和样本采样比例等.通过机器学习库skikit-learn中网格搜

【参考文献】:
期刊论文
[1]基于深度学习的网络流量分类识别研究[J]. 张家颖,杨文军.  天津理工大学学报. 2019(06)
[2]基于密度峰值的Adaboost算法[J]. 王军,吴文超,程勇.  计算机工程与设计. 2019(11)
[3]一种针对类别不平衡的代价敏感集成算法[J]. 谭浩,田爱奎,吴志勇.  山东理工大学学报(自然科学版). 2018(06)
[4]基于过欠重采样的类别不平衡GBDT财务困境预测[J]. 王瑞芳.  中南财经政法大学研究生学报. 2018(04)
[5]基于僵尸网络流量特征的深度学习检测[J]. 周畅,黄征.  信息技术. 2018(04)
[6]基于非平衡数据的随机森林分类算法改进[J]. 魏正韬,杨有龙,白婧.  重庆大学学报. 2018(04)
[7]P2P应用流量的高效分类方法研究[J]. 陈金富,赵慧,常鹏,张永铮.  计算机应用与软件. 2017(04)
[8]基于AdaBoost的类不平衡学习算法[J]. 秦孟梅,邱建林,陆鹏程,陈璐璐,赵伟康.  计算机应用研究. 2017(11)
[9]基于二次随机森林的不平衡数据分类算法[J]. 刘学,张素伟.  软件. 2016(07)
[10]多标签代价敏感分类集成学习算法[J]. 付忠良.  自动化学报. 2014(06)

博士论文
[1]基于SVM的网络流量特征降维与分类方法研究[D]. 曹杰.吉林大学 2017



本文编号:3229666

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3229666.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c106***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com