互联网流量分类的若干关键问题研究
发布时间:2021-06-12 00:04
互联网承载着越来越多的业务应用,其巨大信息流成为社会发展的强劲动力,但是也给互联网管理和安全带来多项挑战,主要表现为带宽资源不好管、网络安全不易控、网络计费不公平等。目前互联网管控方式从基于带宽和流量的粗旷式方法发展到基于网络应用类型的精细化方法。为此,互联网流量识别与分类成为网络研究的一个重要方向,其主要功能是从大量流量中识别出特定应用的IP报文,例如WWW、P2P(Peer-to-Peer)、异常攻击等,从而为多项网络管理活动提供决策支持,例如管制P2P流量、保障交互型应用的服务质量和拦截异常流量等。互联网流量分类技术随着网络应用技术的发展而不断演进。基于端口号映射和载荷特征字段匹配的传统流量分类方法非常成熟,已广泛应用于实际系统中。但是,因动态端口号、端口伪装技术和载荷加密技术等的广泛应用,这些传统流量分类方法逐渐失效。基于机器学习的流量分类方法富有应用前景,吸引了大量研究。但是,此类方法仍然面临多项挑战,包括类不平衡、概念漂移等,导致小类(例如交互型应用)的分类性能难以得到保障。为此,论文提出一种面向类不平衡和概念漂移的互联网流量分类框架,其包括了应对类不平衡和概念漂移问题的子...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:144 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 互联网流量分类面临的挑战
1.3 面向类不平衡和概念漂移的流量分类系统框架
1.3.1 基准数据集构建模块
1.3.2 异常流量识别模块
1.3.3 分类器训练模块
1.3.4 在线流量分类模块
1.4 研究目标和主要贡献
1.5 论文组织结构
第二章 互联网流量分类技术的研究现状
2.1 互联网测量技术
2.2 互联网流量分类研究现状
2.2.1 基于端口号的流量分类方法
2.2.2 基于报文载荷的流量分类方法
2.2.3 基于主机通信行为的流量分类方法
2.2.4 基于机器学习的流量分类方法
2.3 互联网流量分类若干关键问题研究
2.3.1 类不平衡的相关工作
2.3.2 概念漂移的相关工作
2.3.3 异常流量识别相关工作
2.4 互联网流量分类研究组织
2.4.1 国外研究组织
2.4.2 国内研究组织
2.5 本章小结
第三章 互联网流量的微调重采样方法
3.1 引言
3.2 互联网流量数据的类不平衡性
3.2.1 互联网流量数据集
3.2.2 流量数据不平衡性
3.3 微调重采样方法
3.4 互联网流量分类实验结果分析
3.4.1 分类性能评估指标
3.4.2 实验设计
3.4.3 基本流量分类性能
3.4.4 流量分类稳定性
3.5 本章小结
第四章 基于数据清理的流量分类方法
4.1 引言
4.2 相关工作
4.3 实验数据集与分类性能评估指标
4.3.1 互联网流量数据集
4.3.2 流量分类性能评估指标
4.4 基于数据清理的流量分类方法
4.4.1 K近邻算法
4.4.2 低字节分类准确率的讨论
4.4.3 IENN方法
4.5 实验结果分析
4.5.1 实验设计
4.5.2 基本流量分类性能比较
4.5.3 在线流量分类场景的分类性能比较
4.5.4 参数讨论
4.6 本章小结
第五章 基于单类概念漂移探测的流量分类框架
5.1 引言
5.2 互联网流量数据集及其概念漂移情况
5.2.1 互联网流量数据
5.2.2 流量数据集上的概念漂移
5.3 基于PCDD的互联网流量分类框架
5.3.1 概念漂移探测方法
5.3.2 样本缓存控制
5.3.3 分类器模型
5.3.4 基于PCDD的流量分类框架
5.4 互联网流量分类实验结果
5.4.1 流量分类性能评价指标
5.4.2 概念漂移探测性能比较
5.4.3 分类模型更新次数与训练集规模
5.5 本章小结
第六章 基于信息熵的异常流量识别方法
6.1 引言
6.2 基于信息熵的异常流量识别方法
6.2.1 互联网流量数据
6.2.2 互联网流量来源分布分析
6.2.3 信息熵与相对不确定性
6.2.4 异常流量识别方法框架
6.2.5 不活跃IP识别算法
6.2.6 异常流量识别算法
6.3 IPV4 基准数据集上的性能评估
6.3.1 基准数据集建立
6.3.2 基准数据上的不活跃IP分布
6.3.3 性能评估指标
6.3.4 异常流量识别方法的参数与性能分析
6.3.5 假设检验分析
6.4 NETFLOW数据上的实验分析
6.4.1 NetFlow流量数据
6.4.2 不活跃IP及恶意源IP分析
6.4.3 异常流量验证分析
6.5 IPV6 数据集上的性能分析
6.6 本章小结
总结与展望
工作总结
研究展望
参考文献
攻读博士学位期间取得的研究成果
致谢
附件
本文编号:3225533
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:144 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 互联网流量分类面临的挑战
1.3 面向类不平衡和概念漂移的流量分类系统框架
1.3.1 基准数据集构建模块
1.3.2 异常流量识别模块
1.3.3 分类器训练模块
1.3.4 在线流量分类模块
1.4 研究目标和主要贡献
1.5 论文组织结构
第二章 互联网流量分类技术的研究现状
2.1 互联网测量技术
2.2 互联网流量分类研究现状
2.2.1 基于端口号的流量分类方法
2.2.2 基于报文载荷的流量分类方法
2.2.3 基于主机通信行为的流量分类方法
2.2.4 基于机器学习的流量分类方法
2.3 互联网流量分类若干关键问题研究
2.3.1 类不平衡的相关工作
2.3.2 概念漂移的相关工作
2.3.3 异常流量识别相关工作
2.4 互联网流量分类研究组织
2.4.1 国外研究组织
2.4.2 国内研究组织
2.5 本章小结
第三章 互联网流量的微调重采样方法
3.1 引言
3.2 互联网流量数据的类不平衡性
3.2.1 互联网流量数据集
3.2.2 流量数据不平衡性
3.3 微调重采样方法
3.4 互联网流量分类实验结果分析
3.4.1 分类性能评估指标
3.4.2 实验设计
3.4.3 基本流量分类性能
3.4.4 流量分类稳定性
3.5 本章小结
第四章 基于数据清理的流量分类方法
4.1 引言
4.2 相关工作
4.3 实验数据集与分类性能评估指标
4.3.1 互联网流量数据集
4.3.2 流量分类性能评估指标
4.4 基于数据清理的流量分类方法
4.4.1 K近邻算法
4.4.2 低字节分类准确率的讨论
4.4.3 IENN方法
4.5 实验结果分析
4.5.1 实验设计
4.5.2 基本流量分类性能比较
4.5.3 在线流量分类场景的分类性能比较
4.5.4 参数讨论
4.6 本章小结
第五章 基于单类概念漂移探测的流量分类框架
5.1 引言
5.2 互联网流量数据集及其概念漂移情况
5.2.1 互联网流量数据
5.2.2 流量数据集上的概念漂移
5.3 基于PCDD的互联网流量分类框架
5.3.1 概念漂移探测方法
5.3.2 样本缓存控制
5.3.3 分类器模型
5.3.4 基于PCDD的流量分类框架
5.4 互联网流量分类实验结果
5.4.1 流量分类性能评价指标
5.4.2 概念漂移探测性能比较
5.4.3 分类模型更新次数与训练集规模
5.5 本章小结
第六章 基于信息熵的异常流量识别方法
6.1 引言
6.2 基于信息熵的异常流量识别方法
6.2.1 互联网流量数据
6.2.2 互联网流量来源分布分析
6.2.3 信息熵与相对不确定性
6.2.4 异常流量识别方法框架
6.2.5 不活跃IP识别算法
6.2.6 异常流量识别算法
6.3 IPV4 基准数据集上的性能评估
6.3.1 基准数据集建立
6.3.2 基准数据上的不活跃IP分布
6.3.3 性能评估指标
6.3.4 异常流量识别方法的参数与性能分析
6.3.5 假设检验分析
6.4 NETFLOW数据上的实验分析
6.4.1 NetFlow流量数据
6.4.2 不活跃IP及恶意源IP分析
6.4.3 异常流量验证分析
6.5 IPV6 数据集上的性能分析
6.6 本章小结
总结与展望
工作总结
研究展望
参考文献
攻读博士学位期间取得的研究成果
致谢
附件
本文编号:3225533
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3225533.html