加密流量精细化分类技术研究

发布时间：2020-08-25 05:55

【摘要】：为了满足用户隐私保护和网络安全的需求,需要对网络流量进行加密,传统面向非加密流量的识别技术难以识别和处理加密流量,因此实现有效的加密流量识别是网络安全与管理的重要保障。针对当前加密流量识别存在准确率低、鲁棒性差等问题,如何从高速网络流量中提取反映加密流量内在规律的特征信息,实现加密流量的精细化识别是本文的研究目标。本文的研究工作围绕以上问题展开,具体工作包括以下几个方面:(1)针对加密流量识别中特征选择存在度量指标单一和类别不平衡问题,使得模型复杂度提高、泛化能力下降。因此,提出一种基于选择性集成策略的加密网络流特征选择方法,从多个度量的特征选择方法中选择性集成部分特征选择方法,再改进序列前向搜索和封装器组合方法二次搜索最优特征子集。实验结果表明该方法在保证分类效果的同时有效降低特征子集复杂度,从而实现分类效果、效率和稳定性的最优平衡。(2)针对加密网络流量随时间推移和网络环境变化而发生网络流特征和分布变化,导致基于机器学习的分类模型适用性和精度下降。因此,提出一种基于加权集成学习的加密流量自适应分类方法,首先根据加密网络流特征属性的信息熵变化检测网络流变化,再采用增量集成学习策略在网络流变化点引入当前流量建立的新分类器,并剔除性能下降的分类器,达到更新分类器的目的,最后加权集成分类结果。实验结果表明该方法可以及时检测网络流变化并有效更新分类器,表现出较好的分类性能和泛化能力。(3)由于SSL/TLS加密流特征信息有限,基于流特征的识别方法精度低,无法实现有效的SSL/TLS加密应用精细化识别。因此,提出一种基于马尔科夫链和集成学习的SSL/TLS应用精细化识别方法,鉴于SSL/TLS握手过程的独有特性,选用SSL/TLS握手的消息类型信息和报文大小二维特征作为指纹特征建立二阶马尔科夫模型;同时,根据相邻报文大小改进HMM发射概率并建立HMM模型,最后,采用加权集成策略获得加权分类器。实验结果表明该方法的分类精度达到90%以上,与现有方法相比提高了11%,且具有较好的分类效率和泛化能力。(4)针对自适应码率技术会根据网络状况自动切换视频清晰度,且各传输模式的视频分段机制也不同,现有方法很难获取有用的SSL/TLS加密视频分段的流量特征,从而实现有效的码率和清晰度识别。因此,提出一种基于视频块特征的SSL/TLS加密视频内容参数识别方法。首先,根据SSL/TLS握手过程中未加密内容识别SSL/TLS加密的YouTube流量。然后,提出视频流前若干个包的4个特征识别HLS、DASH和HPD传输模式,再根据视频块特征建立机器学习模型识别视频块的码率和清晰度。实验结果表明该方法传输模式、码率和清晰度识别平均准确率分别达到98%、99%和98%,可以有效用于SSL/TLS加密YouTube的QoE评估。
【学位授予单位】：东南大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：TP393.08;TP181
【图文】：

增长率,带宽,网民,全球

第一章绪论究背景思科可视化网络指数预测[1]研究报告表明，全球 IP 流量在 2016 年已超到 1.2ZB，到 2021 年全球 IP 流量将达到 3.3ZB。全球 IP 流量将在 5 年从 2016 年到 2021 年复合年均增长率将达到 24%。据第 41 次《中国互告》[2]表明，截至 2017 年 12 月，中国国际出口宽带为 7320180Mbps，%。图 1-1 给出了 2011-2017 年我国国际出口带宽及增长率。从互联网 2017 年 12 月，我国网民规模达 7.72 亿，普及率达到 55.8%，超过全7%）4.1 个百分点，超过亚洲平均水平（46.7%）9.1 个百分点。我国网平稳增长，互联网模式不断创新、线上线下服务融合加速以及公共服务，成为网民规模增长推动力。图 1-2 给出了 2007-2017 年期间我国网民及率。

网民,普及率,互联网

至 2017 年 12 月，我国网民规模达 7.72 亿，普及率达到 55.8%，超过全球平.7%）4.1 个百分点，超过亚洲平均水平（46.7%）9.1 个百分点。我国网民规平稳增长，互联网模式不断创新、线上线下服务融合加速以及公共服务线上，成为网民规模增长推动力。图 1-2 给出了 2007-2017 年期间我国网民规模及率。图 1-1 2011-2017 年中国国际出口带宽及增长率

增长趋势,流量,成为法律,统计报告

络游戏 44161 57.2% 41704 57.0% 5.9上银行 39911 51.7% 36552 50.0% 9.2络文学 37774 48.9% 33319 45.6% 13.4行预订 37578 48.7% 29922 40.9% 25.6子邮件 28422 36.8% 24815 33.9% 14.5联网理财 12881 16.7% 9890 13.5% 30.2上炒股 6730 8.7% 6276 8.6% 7.2微博 31601 40.9% 27143 37.1% 16.4图查询 49247 63.8% 46166 63.1% 6.7上订外卖 34338 44.5% 20856 28.5% 64.6线教育 15518 20.1% 13764 18.8% 12.7的是，随着大众网络安全意识的稳步提升，对于数据保护的统计报告[3]，截止 2017 年 2 月，半数的在线流量均被加密。甚至已成为法律的强制性要求，数据加密俨然已经成为保护不知，流量加密在无意间也给网络安全带来了新的隐患。 80%的企业网络流量将被加密。NSS 实验室预测到 2019 年[4]。Barac 预测到 2020 年，83%的流量将被加密[5]，如图 1

【参考文献】