基于机器学习的加密流量识别算法研究
发布时间:2022-09-29 16:46
随着信息技术的不断发展,网络中充斥的各种各样的加密流量,而为了有效识别各类应用的加密流量,以提高网络管理、改善网络服务、保障网络环境安全,加密流量的特征提取和应用识别显得越来越重要。本文在机器学习算法的基础上,就加密流量识别算法进行研究,本文的主要工作如下:1)本文首先分析总结了传统流量识别方法,对比了各个方法的优缺点以及适用场景,并进一步分析了传统方法在当前加密流量爆发式增长的网络环境下面临的困境。然后分析了机器学习方法相比于传统流量识别方法的优势所在。2)本文基于Bagging提出了一种面向应用的加密流量识别算法,借助数据流统计特征对加密流量对应的应用类型进行分类,并利用孤立森林对特征数据集中的噪声样本进行去除,以进一步提高算法的准确率。在该算法的基础上,对应用进一步细化分类,尝试对应用的功能模块的进行识别,并提出了一种面向功能的加密流量识别算法。在功能识别中,由于数据流统计特征难以覆盖所有功能,本文引入了负载特征作为辅助,并有效提高了算法的识别准确率。最后通过实验测试了两个算法分别在应用识别和功能识别的识别效果,均取得较高的准确率、精确率、召回率。3)本文在上述两个算法的基础上,...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 本文的主要研究内容
1.3.1 流量特征提取
1.3.2 传统流量识别方法
1.3.3 基于机器学习的流量识别算法
1.3.4 并行优化
1.4 文章架构
第2章 相关背景知识
2.1 常见加密协议
2.2 加密流量特征提取
2.3 流量识别方法
2.3.1 基于端口的流量识别技术
2.3.2 深度报文检测技术
2.3.3 基于行为特征的流量识别技术
2.4 机器学习
2.4.1 支持向量机算法
2.4.2 C4.5决策树算法
2.4.3 朴素贝叶斯算法
2.4.4 效果评估标准
2.5 集成学习
2.5.1 Boosting
2.5.2 Bagging
2.5.3 Stacking
2.5.4 集成学习组合策略
第3章 面向应用的加密流量识别算法
3.1 数据集
3.1.1 ISCX VPN-non VPN数据集
3.1.2 捕获数据集
3.2 特征选择
3.2.1 条件熵
3.2.2 基于条件熵的特征选择
3.3 噪声处理
3.3.1 孤立森林
3.3.2 基于孤立深林的噪声处理
3.4 算法设计
3.5 实验结果
3.5.1 机器学习算法效果对比
3.5.2 噪声数据影响
3.6 本章小结
第4章 面向功能的加密流量识别算法
4.1 数据集
4.2 特征选择
4.2.1 数据流统计特征
4.2.2 负载特征
4.3 算法设计
4.4 实验结果
4.4.1 机器学习算法效果对比
4.4.2 特征影响
4.5 本章小结
第5章 基于SPARK的并行优化方法
5.1 整体框架
5.2 基于SPARK的 BAGGING算法优化
5.2.1 数据并行策略
5.2.2 任务并行策略
5.3 实验结果
5.3.1 识别效果
5.3.2 识别效率
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
本文编号:3682947
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 本文的主要研究内容
1.3.1 流量特征提取
1.3.2 传统流量识别方法
1.3.3 基于机器学习的流量识别算法
1.3.4 并行优化
1.4 文章架构
第2章 相关背景知识
2.1 常见加密协议
2.2 加密流量特征提取
2.3 流量识别方法
2.3.1 基于端口的流量识别技术
2.3.2 深度报文检测技术
2.3.3 基于行为特征的流量识别技术
2.4 机器学习
2.4.1 支持向量机算法
2.4.2 C4.5决策树算法
2.4.3 朴素贝叶斯算法
2.4.4 效果评估标准
2.5 集成学习
2.5.1 Boosting
2.5.2 Bagging
2.5.3 Stacking
2.5.4 集成学习组合策略
第3章 面向应用的加密流量识别算法
3.1 数据集
3.1.1 ISCX VPN-non VPN数据集
3.1.2 捕获数据集
3.2 特征选择
3.2.1 条件熵
3.2.2 基于条件熵的特征选择
3.3 噪声处理
3.3.1 孤立森林
3.3.2 基于孤立深林的噪声处理
3.4 算法设计
3.5 实验结果
3.5.1 机器学习算法效果对比
3.5.2 噪声数据影响
3.6 本章小结
第4章 面向功能的加密流量识别算法
4.1 数据集
4.2 特征选择
4.2.1 数据流统计特征
4.2.2 负载特征
4.3 算法设计
4.4 实验结果
4.4.1 机器学习算法效果对比
4.4.2 特征影响
4.5 本章小结
第5章 基于SPARK的并行优化方法
5.1 整体框架
5.2 基于SPARK的 BAGGING算法优化
5.2.1 数据并行策略
5.2.2 任务并行策略
5.3 实验结果
5.3.1 识别效果
5.3.2 识别效率
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
本文编号:3682947
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3682947.html