半监督异常流量检测研究综述
发布时间:2021-07-29 11:36
随着信息网络的高速发展,特别是高速互联网、5G网络、物联网等的发展,网络流量信息的获取也变得更加容易,但对流量数据进行标记面临着不可逾越的困难.半监督学习能够将少量标记的流量与大量未标记的流量同时进行训练,也因此成为网络安全领域的研究热点.学术界已有半监督技术的相关综述,尚未有对半监督技术在异常流量检测方法上进行总结的文献.因此,本文对近年来半监督异常流量检测技术进行综述,首先论述异常流量检测的特性与关联性,然后对半监督学习的研究内容进行介绍,其次,对基于半监督的异常流量检测方法进行分析和比较,包括半监督聚类、半监督分类、半监督降维、半监督集成和增量半监督,最后指出当前半监督检测方法中存在的不足和未来值得研究的方向.
【文章来源】:小型微型计算机系统. 2020,41(11)北大核心CSCD
【文章页数】:9 页
【部分图文】:
2010年-2020年文献出版数
半监督学习是同时采用标签和无标签样本数据的机器学习方法,是机器学习领域中比较新兴的方法.其常采用有标签数据改进、变更样本的重要性来探索无标签样本,如图2所示.主动学习和直推学习也是利用未标注数据学习的主流技术[23],他们的目标都是在提高泛化误差的同时尽可能地减少标记数据的花费.其中主动学习依赖于人工干预,而直推学习关注在未标注数据上的预测性能.M iller等人首先根据数据分布的估计阐述了未标注数据的加入确实可以对分类模型的性能起到正面的促进作用[24].假设样本数据的真实类别标记为y∈Y,Y={1,2,…,C}为所有类别,且样本数据项由C个高斯混合分布构成,每一类对应一个高斯混合成分,如式(1)所示:
半监督学习是有监督和无监督技术的结合,其核心问题是如何有效利用无标注数据辅助学习.为缓解实际异常流量检测任务中难以获得大量模块标注这一难题,半监督学习被引入异常流量检测,以利用大量未标注流量样本,提升在少量标记样本的模块上学习建模的性能.半监督异常流量检测的基本流程如图3所示.首先选择部分模块送交网络安全专家,获得每个模块的异常情况标注,然后基于所形成的有标注的流量模块和无标注流量模块进行半监督学习,用于预测新模块的异常情况.第三节介绍了半监督学习主要包含的几种范型,但是根据学习场景的不同,可具体再将半监督类型进行划分.本文从半监督聚类、半监督分类、半监督降维、半监督集成和增量半监督这五个方面对异常流量检测这一特定的学习场景展开评述.其中后三类分别对应流量的数据不平衡性、高维复杂性、实时新增这三个特性,图4展示了相应的研究进展.
【参考文献】:
期刊论文
[1]一种采用SmoteTomek和LightGBM算法的Web异常检测模型[J]. 魏志强,张浩,陈龙. 小型微型计算机系统. 2020(03)
[2]半监督学习研究的述评[J]. 韩嵩,韩秋弘. 计算机工程与应用. 2020(06)
[3]基于MLP-HMM的跨站脚本攻击检测[J]. 周康,万良,丁红卫. 计算机工程与科学. 2019(08)
[4]基于机器学习的网络异常流量检测研究[J]. 陈胜,朱国胜,祁小云,雷龙飞,镇佳,吴善超,吴梦宇. 信息通信. 2017(12)
[5]半监督集成学习综述[J]. 蔡毅,朱秀芳,孙章丽,陈阿娇. 计算机科学. 2017(S1)
[6]半监督模糊Fisher降维分析[J]. 杨昔阳,邓朝阳,李志伟. 厦门大学学报(自然科学版). 2015(06)
[7]基于半监督降维技术的网络入侵检测方法[J]. 贾伟峰,李杰,童彬. 计算机应用与软件. 2013(10)
[8]基于主成分分析禁忌搜索和决策树分类的异常流量检测方法[J]. 冶晓隆,兰巨龙,郭通. 计算机应用. 2013(10)
硕士论文
[1]基于结构正则化方法的半监督降维研究[D]. 张喜莲.温州大学 2018
本文编号:3309250
【文章来源】:小型微型计算机系统. 2020,41(11)北大核心CSCD
【文章页数】:9 页
【部分图文】:
2010年-2020年文献出版数
半监督学习是同时采用标签和无标签样本数据的机器学习方法,是机器学习领域中比较新兴的方法.其常采用有标签数据改进、变更样本的重要性来探索无标签样本,如图2所示.主动学习和直推学习也是利用未标注数据学习的主流技术[23],他们的目标都是在提高泛化误差的同时尽可能地减少标记数据的花费.其中主动学习依赖于人工干预,而直推学习关注在未标注数据上的预测性能.M iller等人首先根据数据分布的估计阐述了未标注数据的加入确实可以对分类模型的性能起到正面的促进作用[24].假设样本数据的真实类别标记为y∈Y,Y={1,2,…,C}为所有类别,且样本数据项由C个高斯混合分布构成,每一类对应一个高斯混合成分,如式(1)所示:
半监督学习是有监督和无监督技术的结合,其核心问题是如何有效利用无标注数据辅助学习.为缓解实际异常流量检测任务中难以获得大量模块标注这一难题,半监督学习被引入异常流量检测,以利用大量未标注流量样本,提升在少量标记样本的模块上学习建模的性能.半监督异常流量检测的基本流程如图3所示.首先选择部分模块送交网络安全专家,获得每个模块的异常情况标注,然后基于所形成的有标注的流量模块和无标注流量模块进行半监督学习,用于预测新模块的异常情况.第三节介绍了半监督学习主要包含的几种范型,但是根据学习场景的不同,可具体再将半监督类型进行划分.本文从半监督聚类、半监督分类、半监督降维、半监督集成和增量半监督这五个方面对异常流量检测这一特定的学习场景展开评述.其中后三类分别对应流量的数据不平衡性、高维复杂性、实时新增这三个特性,图4展示了相应的研究进展.
【参考文献】:
期刊论文
[1]一种采用SmoteTomek和LightGBM算法的Web异常检测模型[J]. 魏志强,张浩,陈龙. 小型微型计算机系统. 2020(03)
[2]半监督学习研究的述评[J]. 韩嵩,韩秋弘. 计算机工程与应用. 2020(06)
[3]基于MLP-HMM的跨站脚本攻击检测[J]. 周康,万良,丁红卫. 计算机工程与科学. 2019(08)
[4]基于机器学习的网络异常流量检测研究[J]. 陈胜,朱国胜,祁小云,雷龙飞,镇佳,吴善超,吴梦宇. 信息通信. 2017(12)
[5]半监督集成学习综述[J]. 蔡毅,朱秀芳,孙章丽,陈阿娇. 计算机科学. 2017(S1)
[6]半监督模糊Fisher降维分析[J]. 杨昔阳,邓朝阳,李志伟. 厦门大学学报(自然科学版). 2015(06)
[7]基于半监督降维技术的网络入侵检测方法[J]. 贾伟峰,李杰,童彬. 计算机应用与软件. 2013(10)
[8]基于主成分分析禁忌搜索和决策树分类的异常流量检测方法[J]. 冶晓隆,兰巨龙,郭通. 计算机应用. 2013(10)
硕士论文
[1]基于结构正则化方法的半监督降维研究[D]. 张喜莲.温州大学 2018
本文编号:3309250
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3309250.html