当前位置:主页 > 管理论文 > 移动网络论文 >

基于XGBoost的SSH流量识别研究

发布时间:2020-03-22 21:07
【摘要】:随着人们在网络通信中对隐私的重视,网络流量加密正在成为一种保护隐私和通信安全的常用手段。但是,网络流量加密也给网络流量识别和异常流量检测带来很大的难题。SSH(Secure Shell)协议是目前使用比较广泛的应用层安全协议,拥有比较完善的交互认证机制和非对称的加密机制。这种加密机制在给用户提供安全通信服务的同时,也使一部分用户能够通过SSH隧道隐蔽自己的非法行为,特别是利用SSH协议的端口转发功能来访问国外非法网站。因此,对SSH流量的识别进行研究具有重要的意义。首先,本文对SSH协议交互的过程进行了深入实验和分析,解决了SSH隧道下不同应用的特征向量提取问题,进而提取了SSH隧道下不同应用握手阶段的包长特征、基于网络流的特征和比例类型的特征。此外,在特征提取过程中会出现网络波动等异常情况,造成数据传输过程中的丢包和重传,使得采集到的网络流量中存在噪音样本,进而导致训练样本中出现类别概念模糊的问题。本文针对此问题提出了基于孤立森林的SSH特征向量去噪方法,有效提升了识别方法的准确率。其次,本文针对SSH加密流量特征是连续的、非线性的特点,将XGBoost集成学习方法应用到SSH加密网络流量分类研究中。该方法可以很好地处理加密流量中连续的、非线性的统计特征,例如包长,时间间隔等,也增加了很多防止过拟合的方法,例如正则项,决策树的深度,叶子结点的权重,特征采样等。本文还对XGBoost集成学习方法的迭代次数和基分类器的参数进行了优化,以便更好地识别SSH隧道下的应用。优化后的方法相比传统机器学习模型对SSH加密流量识别准确率和召回率有很大的提升。针对SSH隧道下HTTP、FTP、SMTP、SCP、Login等五种常见应用进行实验,识别准确率和召回率都在90%以上,其中对于HTTP协议的召回率达到了95.81%。
【图文】:

端口号,应用协议,网络流量,计算机网络工程


d.国外的SSH服务图2-2 SSH转发过程Fig. 2-2 Transfer process of SSH络流量识别的方法流量识别在计算机网络工程、管理和控制等关键领域起到了流行的网络流量识别方法一般有三种:1、基于固定端口的网于深度报文检测的网络流量分类;3、基于机器学习方法的于端口号的识别端口号的识别依赖网络应用在通信过程中使用众所周知的法在早期是非常有效的[41],因为许多著名的应用协议具有的端口号,早期常见的应用协议都是使用IANA分配的固定输,由于不同的网络应用拥有不同的端口号,所以基于端口

服务器端,客户端,发送数据,数据包


3.2 协议握手阶段的包长特征为了使传输层在网络中提供可靠的数据传输,TCP 协议在发送数据报文前,会进行三次握手。第一次握手是在建立 TCP 连接后,客户端会发送 syn 包到服务器端,然后进入 SYN_SENT 状态,,等待服务器的回复。第二次握手服务器端收到客户端发来的 syn 包,会先确认客户端的 SYN 包,然后服务器端发送一个SYN+ACK 包,服务器端同时会进入 SYN_RECV 状态,表示已经接受过客户端发送过来的 syn 包。第三次握手客户端收到服务器发送回来的 SYN+ACK 包,会向服务器端发送 ACK 包,该 ACK 包发送成功后,客户端和服务器端都进入TCP 连接成功状态。三次握手成功后,双方都知道对方可以接受和发送数据,这样就保证数据可以可靠的传输。和 TCP 传输层协议一样,大部分应用层协议也都有协议本身的“握手”阶段。Charles V. Wright[49]在他们课题研究中对加密流量的一次会话只提取了前 10 分钟,又将前 10 分钟加密流量传输的数据包按时间间隔又分为长度固定的 N 份,对每一份进行特征向量的提取。实验发现不同的协议在前10秒钟数据传输的包长大小会有很大的差距,图3-2和3-3是CharlesV. Wright 等人对 HTTP 和 FTP 前 10 秒数据包密度的统计特征结果。
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.08

【相似文献】

相关期刊论文 前10条

1 黄石平;;基于新型网络结构流量识别方法研究[J];电脑编程技巧与维护;2018年04期

2 苏星晔;徐方南;;对等网络流量识别技术研究[J];中国新通信;2017年05期

3 潘吴斌;程光;郭晓军;黄顺翔;;网络加密流量识别研究综述及展望[J];通信学报;2016年09期

4 滕翠;;网络流量识别特征码自动提取系统分析[J];计算机光盘软件与应用;2014年19期

5 陈乾熙;;网络流量识别方法及比较研究[J];今日科苑;2015年08期

6 辛峰;於建华;;互联网流量识别技术的研究及实现[J];广东通信技术;2008年03期

7 曹诗敏;王娟;;特殊网络流量识别综述[J];电脑知识与技术;2018年17期

8 姜羽;华俊;胡静;宋铁成;刘世栋;郭经红;;电力信息通信网络流量识别技术研究[J];信息化研究;2015年01期

9 赵双;陈曙晖;;基于机器学习的流量识别技术综述与展望[J];计算机工程与科学;2018年10期

10 燕f:昊;韩国栋;黄雅静;王孝龙;;非平衡网络流量识别方法[J];计算机应用;2018年01期

相关会议论文 前8条

1 张鑫;马勇;曹鹏;;基于贝叶斯分类算法的木马程序流量识别方法[A];第27次全国计算机安全学术交流会论文集[C];2012年

2 喻东阳;陈宏伟;杨庄;;基于信任抽样的P2P流量识别[A];武汉机械设计与传动学会第21届学术年会论文集[C];2013年

3 张娜娜;;P2P流量识别方法研究[A];江苏省电子学会2010年学术年会论文集[C];2010年

4 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年

5 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年

6 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

7 杜建清;黄少君;杨家海;;网络测量协作柔性支撑平台[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

8 陈磊;;IP网络流量的识别与管理[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年

相关重要报纸文章 前1条

1 《网络世界》记者 边歆;控制“有害”的应用[N];网络世界;2011年

相关博士学位论文 前10条

1 宫婧;基于支持向量机的P2P流量识别关键技术研究[D];南京邮电大学;2016年

2 卓中流;匿名网络追踪溯源关键技术研究[D];电子科技大学;2018年

3 林冠洲;网络流量识别关键技术研究[D];北京邮电大学;2011年

4 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年

5 田旭;互联网流量识别技术研究[D];北京邮电大学;2012年

6 吴敏;P2P网络流量控制管理若干关键技术研究[D];南京邮电大学;2011年

7 侯颖;网络流量测量与识别关键技术研究[D];解放军信息工程大学;2015年

8 彭立志;基于机器学习的流量识别关键技术研究[D];哈尔滨工业大学;2015年

9 赵博;网络加密流量的协议不相关在线识别技术研究[D];解放军信息工程大学;2012年

10 韩祺yN;P2P网络监控与信任安全机制研究[D];电子科技大学;2016年

相关硕士学位论文 前10条

1 徐军;基于SDN的应用感知多路径网络资源分配系统[D];北京邮电大学;2019年

2 姜易;基于机器学习的大规模网络流量识别方法研究[D];沈阳工业大学;2019年

3 李旭航;基于XGBoost的SSH流量识别研究[D];哈尔滨理工大学;2019年

4 方鹏;基于TCP流特征提取技术的网络流量识别应用研究[D];中国科学技术大学;2018年

5 李玎;基于深度学习的网络流量识别关键技术研究[D];战略支援部队信息工程大学;2018年

6 黄心昊;基于Spark流处理的实时网络应用流量识别研究[D];国防科学技术大学;2017年

7 王琳琳;面向移动恶意应用流量的非平衡识别方法研究[D];济南大学;2018年

8 段文蓓;基于DPI和流特征的流量识别与控制的研究与实现[D];武汉理工大学;2017年

9 甘智雄;基于聚类分析的网络流量识别技术研究[D];哈尔滨工程大学;2018年

10 佟明达;网络音视频数据识别技术研究[D];哈尔滨工程大学;2018年



本文编号:2595625

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2595625.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户86d1b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com