面向类不平衡流量数据的分类模型
发布时间:2021-12-09 00:10
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。
【文章来源】:计算机应用. 2020,40(08)北大核心CSCD
【文章页数】:7 页
【部分图文】:
基于机器学习的网络流量分类系统结构
特征选择的流程如图2所示,它主要包含生成特征子集(搜索策略)、评价准则、停止准则和结果验证[19]四个基本步骤。特征选择方法在原始特征集合中利用特定的搜索策略得到备选子集,并根据某种评价指标对选出的备选子集进行评价,由最优评估值的特征集合取代次优特征集合,并根据停止准则结束搜索,保证算法的有穷性,最后使用人工数据集或真实数据集测试所选子集的有效性。2 基于集成学习的网络流量分类模型
基于集成学习的网络流量分类模型(ELTCM)系统结构如图3所示。初始时,在预先获取的数据集上进行训练,得到一个基分类器;通过增量学习的方式,将新增的网络流量及其通过基分类器所得的分类结果作为新的数据子集;若新的数据子集与前一阶段的数据集相比,发生了概念漂移并达到一定程度时,采用新的数据集训练得到新的基分类器,并将新增基分类器加入集成分类系统,参与预测下一阶段的网络流量的分类结果。这样,当模型需要更新时,只需要利用少量的新样本进行训练,提高了模型更新训练的灵活性,缩短了模型更新的时间间隔。在训练基分类器时,提出一种基于加权对称不确定性(Weighted Symmetric Uncertainty,WSU)和近似马尔可夫毯(Approximate Markov Blanket,AMB)的特征选择算法,充分考虑特征与类别间、特征与特征之间的相关性,在删除不相关特征和冗余特征的同时,选出易于识别小类别的特征,减少类不平衡问题带来的影响。2.1 WSU_AMB特征选择算法
【参考文献】:
期刊论文
[1]面向概念漂移问题的渐进多核学习方法[J]. 白东颖,易亚星,王庆超,余志勇. 计算机应用. 2019(09)
[2]网络背景流量的分类与识别研究综述[J]. 邹腾宽,汪钰颖,吴承荣. 计算机应用. 2019(03)
[3]基于深度卷积神经网络的网络流量分类方法[J]. 王勇,周慧怡,俸皓,叶苗,柯文龙. 通信学报. 2018(01)
[4]互联网中基于用户连接图的流量分类机制[J]. 张震,汪斌强,陈鸿昶,马海龙. 电子与信息学报. 2013(04)
[5]基于互信息选择聚类集成的网络流量分类方法[J]. 丁要军,蔡皖东. 计算机应用. 2013(01)
[6]基于最短划分距离的网络流量决策树分类方法[J]. 杨哲,李领治,纪其进,朱艳琴. 通信学报. 2012(03)
[7]基于C4.5决策树的流量分类方法[J]. 徐鹏,林森. 软件学报. 2009(10)
本文编号:3529518
【文章来源】:计算机应用. 2020,40(08)北大核心CSCD
【文章页数】:7 页
【部分图文】:
基于机器学习的网络流量分类系统结构
特征选择的流程如图2所示,它主要包含生成特征子集(搜索策略)、评价准则、停止准则和结果验证[19]四个基本步骤。特征选择方法在原始特征集合中利用特定的搜索策略得到备选子集,并根据某种评价指标对选出的备选子集进行评价,由最优评估值的特征集合取代次优特征集合,并根据停止准则结束搜索,保证算法的有穷性,最后使用人工数据集或真实数据集测试所选子集的有效性。2 基于集成学习的网络流量分类模型
基于集成学习的网络流量分类模型(ELTCM)系统结构如图3所示。初始时,在预先获取的数据集上进行训练,得到一个基分类器;通过增量学习的方式,将新增的网络流量及其通过基分类器所得的分类结果作为新的数据子集;若新的数据子集与前一阶段的数据集相比,发生了概念漂移并达到一定程度时,采用新的数据集训练得到新的基分类器,并将新增基分类器加入集成分类系统,参与预测下一阶段的网络流量的分类结果。这样,当模型需要更新时,只需要利用少量的新样本进行训练,提高了模型更新训练的灵活性,缩短了模型更新的时间间隔。在训练基分类器时,提出一种基于加权对称不确定性(Weighted Symmetric Uncertainty,WSU)和近似马尔可夫毯(Approximate Markov Blanket,AMB)的特征选择算法,充分考虑特征与类别间、特征与特征之间的相关性,在删除不相关特征和冗余特征的同时,选出易于识别小类别的特征,减少类不平衡问题带来的影响。2.1 WSU_AMB特征选择算法
【参考文献】:
期刊论文
[1]面向概念漂移问题的渐进多核学习方法[J]. 白东颖,易亚星,王庆超,余志勇. 计算机应用. 2019(09)
[2]网络背景流量的分类与识别研究综述[J]. 邹腾宽,汪钰颖,吴承荣. 计算机应用. 2019(03)
[3]基于深度卷积神经网络的网络流量分类方法[J]. 王勇,周慧怡,俸皓,叶苗,柯文龙. 通信学报. 2018(01)
[4]互联网中基于用户连接图的流量分类机制[J]. 张震,汪斌强,陈鸿昶,马海龙. 电子与信息学报. 2013(04)
[5]基于互信息选择聚类集成的网络流量分类方法[J]. 丁要军,蔡皖东. 计算机应用. 2013(01)
[6]基于最短划分距离的网络流量决策树分类方法[J]. 杨哲,李领治,纪其进,朱艳琴. 通信学报. 2012(03)
[7]基于C4.5决策树的流量分类方法[J]. 徐鹏,林森. 软件学报. 2009(10)
本文编号:3529518
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3529518.html