网络流量分类与移动APP流量识别研究
发布时间:2021-02-25 08:50
随着网络应用类型的不断丰富,网络流量呈现爆发式增长,如何灵活调整网络以满足多元化的用户需求已成为“互联网+”时代亟需解决的问题。分类和识别整个网络链路的数据流量是实现管控的先决条件,掌握整个网络链路的流量分布情况,有助于上层网络管理应用依据现有的网络状况部署策略。然而现有识别技术面临诸多难以解决的问题,机器学习算法极易偏向不平衡数据集中的多数类样本,导致模型整体错误分类率较高;需为网络流量选择具有高类别辨识力且低冗余度的特征,构造训练样本集,减少模型训练的时空开销。本文针对以上问题研究网络流量分类和移动流量APP识别,主要工作分为以下两部分:第一,提出基于随机森林的数据平衡化改进算法,分类网络应用流量。1.针对不平衡样本集类别偏向性问题,本文提出了一种基于稀疏度加权的数据平衡化改进算法,改进算法采样合成新样本时充分考虑了少数类样本的分布特征以及边缘模糊边界情况,避免信息丰富度丢失对模型训练产生的负面影响,同时采用少数类样本与其近邻间线性插值的方式合成新少数类样本,避免了直接复制少数类样本导致训练过程中的模型过拟合。2.选择最优特征子集时,综合衡量信息增益和应用类别相关度,获得一种高效快...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景
1.2 研究目的与意义
1.3 国内外研究现状
1.4 主要工作与创新
1.5 论文的结构安排
第二章 网络流量分类与识别技术
2.1 互联网流量分类与识别技术
2.1.1 基于端口号映射的流量识别技术
2.1.2 基于报文载荷分析的流量识别技术
2.1.3 基于通信模式的流量识别技术
2.1.4 基于机器学习的流量识别技术
2.2 随机森林算法
2.2.1 决策树
2.2.2 随机森林
2.3 数据平衡化策略
2.4 移动流量通信协议
2.5 本章小结
第三章 基于随机森林的网络流量分类研究
3.1 网络流量特征选择
3.2 数据平衡化改进算法
3.2.1 CURE聚类改进算法
3.2.2 过采样SMOTE算法
3.2.3 基于稀疏度加权的数据平衡化改进算法
3.3 评价指标
3.4 网络流量分类模型设计
3.4.1 模型框架
3.4.2 模型流程
3.5 实验结果及分析
3.5.1 数据准备
3.5.2 实验设置
3.5.3 结果分析
3.6 本章小结
第四章 基于C4.5 的移动APP流量识别研究
4.1 加密流量提取与流量模型构建
4.2 流量特征选择与降维
4.2.1 流量特征提取
4.2.2 类别相关特征选择
4.2.3 Pearson系数特征降维
4.3 基于C4.5 移动APP流量识别的模型建立
4.3.1 模型设计
4.3.2 模型流程
4.4 实验结果及分析
4.4.1 数据准备
4.4.2 评价指标
4.4.3 实验设置
4.4.4 结果分析
4.5 本章小结
第五章 总结与展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于流量分析的HTTP协议安全现状分析[J]. 何振宇. 科学技术创新. 2020(03)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]带单服务器的自由作业排序问题的启发式算法[J]. 时凌,张琼,时义梅,魏代俊. 数学的实践与认识. 2019(09)
[4]基于流形学习的自适应反馈聚类中心确定方法[J]. 李天龙,曹敏,沈鑫,吴晟,吴兴蛟,周海河. 云南电力技术. 2018(05)
[5]面向不平衡数据集分类模型的优化研究[J]. 温雪岩,陈家男,景维鹏,徐克生. 计算机工程. 2018(04)
[6]数据挖掘在计算机网络病毒防御中的应用[J]. 曾晓杰. 电子技术与软件工程. 2018(07)
[7]面向网络安全事件的入侵检测与取证分析[J]. 龚俭,王卓然,苏琪,杨望. 华中科技大学学报(自然科学版). 2016(11)
[8]基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J]. 霍玉丹,谷琼,蔡之华,袁磊. 计算机应用. 2015(01)
[9]基于C4.5决策树算法的农安县农田管理区划分[J]. 李威,陈桂芬. 湖北农业科学. 2014(07)
[10]HTTP和HTTPS协议安全性分析[J]. 魏兴国. 程序员. 2007(07)
硕士论文
[1]基于MEMS传感器的运动识别算法研究[D]. 缪若琳.哈尔滨工业大学 2019
[2]金融知识自动问答中的新词发现及答案排序方法[D]. 张长.哈尔滨工业大学 2017
本文编号:3050729
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:98 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景
1.2 研究目的与意义
1.3 国内外研究现状
1.4 主要工作与创新
1.5 论文的结构安排
第二章 网络流量分类与识别技术
2.1 互联网流量分类与识别技术
2.1.1 基于端口号映射的流量识别技术
2.1.2 基于报文载荷分析的流量识别技术
2.1.3 基于通信模式的流量识别技术
2.1.4 基于机器学习的流量识别技术
2.2 随机森林算法
2.2.1 决策树
2.2.2 随机森林
2.3 数据平衡化策略
2.4 移动流量通信协议
2.5 本章小结
第三章 基于随机森林的网络流量分类研究
3.1 网络流量特征选择
3.2 数据平衡化改进算法
3.2.1 CURE聚类改进算法
3.2.2 过采样SMOTE算法
3.2.3 基于稀疏度加权的数据平衡化改进算法
3.3 评价指标
3.4 网络流量分类模型设计
3.4.1 模型框架
3.4.2 模型流程
3.5 实验结果及分析
3.5.1 数据准备
3.5.2 实验设置
3.5.3 结果分析
3.6 本章小结
第四章 基于C4.5 的移动APP流量识别研究
4.1 加密流量提取与流量模型构建
4.2 流量特征选择与降维
4.2.1 流量特征提取
4.2.2 类别相关特征选择
4.2.3 Pearson系数特征降维
4.3 基于C4.5 移动APP流量识别的模型建立
4.3.1 模型设计
4.3.2 模型流程
4.4 实验结果及分析
4.4.1 数据准备
4.4.2 评价指标
4.4.3 实验设置
4.4.4 结果分析
4.5 本章小结
第五章 总结与展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于流量分析的HTTP协议安全现状分析[J]. 何振宇. 科学技术创新. 2020(03)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[3]带单服务器的自由作业排序问题的启发式算法[J]. 时凌,张琼,时义梅,魏代俊. 数学的实践与认识. 2019(09)
[4]基于流形学习的自适应反馈聚类中心确定方法[J]. 李天龙,曹敏,沈鑫,吴晟,吴兴蛟,周海河. 云南电力技术. 2018(05)
[5]面向不平衡数据集分类模型的优化研究[J]. 温雪岩,陈家男,景维鹏,徐克生. 计算机工程. 2018(04)
[6]数据挖掘在计算机网络病毒防御中的应用[J]. 曾晓杰. 电子技术与软件工程. 2018(07)
[7]面向网络安全事件的入侵检测与取证分析[J]. 龚俭,王卓然,苏琪,杨望. 华中科技大学学报(自然科学版). 2016(11)
[8]基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J]. 霍玉丹,谷琼,蔡之华,袁磊. 计算机应用. 2015(01)
[9]基于C4.5决策树算法的农安县农田管理区划分[J]. 李威,陈桂芬. 湖北农业科学. 2014(07)
[10]HTTP和HTTPS协议安全性分析[J]. 魏兴国. 程序员. 2007(07)
硕士论文
[1]基于MEMS传感器的运动识别算法研究[D]. 缪若琳.哈尔滨工业大学 2019
[2]金融知识自动问答中的新词发现及答案排序方法[D]. 张长.哈尔滨工业大学 2017
本文编号:3050729
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3050729.html