基于加密流量分析和深度学习的移动应用程序识别关键技术研究
发布时间:2020-12-13 03:43
近年来,移动互联网已经成为人们日常生活和工作中不可或缺的重要组成部分,针对不同的移动应用类型提供差异化的QOS服务成为了网络运营部门的重要任务之一。基于隐私保护等安全目的,移动应用大多采用加密技术,这为移动应用的识别增加了挑战。因而基于密文流量的移动应用类型识别技术成为了国内外学术界和工业界的研究热点。本文以加密流量分析和深度学习相关技术为基础,针对移动应用类型识别技术中的数据预处理、加密数据流特征提取和加密数据流算法建模三个组成模块分别进行了改进和创新,具体内容如下:(1)针对不同移动应用产生的相似干扰加密流样本,提出了一种基于信息熵的聚类簇纯度分析算法。该算法首先利用DBSCAN密度聚类算法对所有加密流样本进行聚类分析,接着根据每个样本的真实标签计算每个聚类簇的信息熵从而为聚类簇进行纯度打分,最后根据实验合理设置熵阈值过滤信息熵较大的聚类簇样本,实现相似干扰样本的过滤。(2)针对加密数据流特征提取阶段,提出了一种将加密数据包头部信息和负载信息相结合的特征提取方案。该方案将加密数据流抽象为数据包时间序列,提取数据包头部的数据包长度、端口号、TCP窗口等明文信息作为数据包头部特征,计算...
【文章来源】:南京邮电大学江苏省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
统计特征的基尼指数分布图
定为最优特征集合。表 4.2 CA-SFS 特征选择过程迭代轮次 特征子集 算法识别准确率(%)1 数据包首部特征 92.36%2 …,3h 93.23%3 …,1h ,4h93.98%4 …,7h94.16%5 …,2h94.63%M 模型训练期间训练集和测试集的损失函数变化曲线。对各参数的导数较大,损失函数迅速减小。训练轮数超对神经网络参数的导数趋近于 0,加之 RMSProp 算法通学习步长,参数更新较慢,逐步稳定收敛于最优解。为确性评估,本文随机采样数据集中每个应用程序样本的 8 种移动应用的识别效果如图 4.9 所示。
图 4.9 移动应用识别效果本章小结本章针对加密数据包的数据包头部和数据包负载分别提取了两类特征,并利用 LSTM 算法最加密数据流时间序列进行动态建模。就数据而言,本章抓取了国内 8 种流行移动应用的通信数据流,共计 105208 条样本,以验证算法应用识别效果。最后,通过实验证明了本章提出的头部信息和负载信息相结合的特征提取方案对应用类型识别的有效性。
本文编号:2913831
【文章来源】:南京邮电大学江苏省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
统计特征的基尼指数分布图
定为最优特征集合。表 4.2 CA-SFS 特征选择过程迭代轮次 特征子集 算法识别准确率(%)1 数据包首部特征 92.36%2 …,3h 93.23%3 …,1h ,4h93.98%4 …,7h94.16%5 …,2h94.63%M 模型训练期间训练集和测试集的损失函数变化曲线。对各参数的导数较大,损失函数迅速减小。训练轮数超对神经网络参数的导数趋近于 0,加之 RMSProp 算法通学习步长,参数更新较慢,逐步稳定收敛于最优解。为确性评估,本文随机采样数据集中每个应用程序样本的 8 种移动应用的识别效果如图 4.9 所示。
图 4.9 移动应用识别效果本章小结本章针对加密数据包的数据包头部和数据包负载分别提取了两类特征,并利用 LSTM 算法最加密数据流时间序列进行动态建模。就数据而言,本章抓取了国内 8 种流行移动应用的通信数据流,共计 105208 条样本,以验证算法应用识别效果。最后,通过实验证明了本章提出的头部信息和负载信息相结合的特征提取方案对应用类型识别的有效性。
本文编号:2913831
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2913831.html