当前位置:主页 > 管理论文 > 移动网络论文 >

流量的集成学习与重采样均衡分类方法

发布时间:2021-10-22 12:10
  针对传统基于机器学习的流量分类方法中数据不均衡影响分类效果的问题,提出了一种基于重采样的梯度增强树算法。该算法利用流量数据的统计特征,通过回溯搜索策略优化特征集合并设计适用于流量分类的树结构参数,构造最优模型;利用结合重采样的LightGBM算法修正数据不平衡性并进行分类测试。经实验验证,该算法提高了不平衡数据的分类效果,并且具有性能稳定、快速的优点。 

【文章来源】:计算机工程与应用. 2020,56(06)北大核心CSCD

【文章页数】:6 页

【部分图文】:

流量的集成学习与重采样均衡分类方法


RES-LGBM流量分类过程

报头,格式,数据包


机器学习方法通常使用样本的特征向量作为输入,并以样本类别作为输出,而在流量分类中,可用数据均为流量数据包,该数据无法直接作为算法的输入,因此需对其进行一定的加工处理。流量分类问题中最有价值的信息为几乎包含于IP数据包的报头中,其格式如图2所示。根据传输协议的工作方式,可以确定源IP地址、目的IP地址、源端口号、目的端口号以及传输层协议均相同的数据包属于同一个流,通过将同一个流中的数据包头信息进行提取、整合和计算,便能得到一系列数据特征,作为机器学习算法的输入。使用这类特征的优点在于,在数据处理过程中只涉及数据包头,没有利用数据包本身的内容,从而避免了侵犯用户隐私。本文使用的数据格式如图3,每条数据代表一个网络流,共有248种特征。

原理图,原理,数据格式,算法


LightGBM分类原理

【参考文献】:
期刊论文
[1]基于深度卷积神经网络的网络流量分类方法[J]. 王勇,周慧怡,俸皓,叶苗,柯文龙.  通信学报. 2018(01)
[2]网络加密流量识别研究综述及展望[J]. 潘吴斌,程光,郭晓军,黄顺翔.  通信学报. 2016(09)
[3]面向多类不均衡网络流量的特征选择方法[J]. 孙兴斌,孙彦赞,郑小盈,芮赟.  计算机应用研究. 2017(02)
[4]基于Spark的大规模网络流量准实时分类方法[J]. 杨晨光,马永征.  科研信息化技术与应用. 2016(02)
[5]实时网络流量分类研究综述[J]. 柏骏,夏靖波,吴吉祥,任高明,赵小欢.  计算机科学. 2013(09)



本文编号:3451072

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3451072.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户90e82***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com