基于半监督学习的网络应用流识别研究
发布时间:2021-03-06 05:39
随着网络应用的发展普及,网络流量及网络规模迅速增大,产生的海量数据使得对网络应用流量的安全管理工作愈发艰难。传统的基于端口和载荷的应用流识别方法已经不能满足识别的精度要求。本文针对网络大量应用流识别问题,通过对现有少量标识数据的研究,采用半监督学习的方法提出并实现了无监督数据标识聚类,还采用有标识的方法进行辅助识别,可以为后续的监督学习提供大量的训练数据。
【文章来源】:智能计算机与应用. 2020,10(02)
【文章页数】:6 页
【部分图文】:
pcap数据流拼接
首先将每种应用报文按照一字节8位为一维特征,将每种应用的应用流拼接成图像,通过对不同类型的数据流图像进行对比,如图2所示,发现相同的应用类型,如图2(a)与(b)均为QQ消息数据流,具有相似的图像;而不同的应用类型的数据流原报文图像则如2(c)所示,与前2个QQ图像存在较大的差异,所以使用原报文方法是可行的。而后,根据文献[1-4]识别研究过程的原理解析,研究分别选择包长、数据包应用层协议类型、数据包数据段长度等显性特征来绘制出图像;并对TCP头设置push位包数、从客户端到服务器方向,以初始端口发送tcp负载大小和从服务器到客户端平均负载大小等基于数据流的特征进行统计分析。图3随即展示了QQ聊天与其他udp应用前50数据包长度统计对比。其中,蓝色和绿色的线条代表QQ聊天,橙色代表其它的udp应用。显而易见,在前50数据包长度对比上,相似的应用同样具有相似的性质。与此同时,研究还针对其它特征都进行了比对,效果大致相似。图3 QQ聊天与其它udp应用前50数据包长度统计
图2 QQ聊天与其它udp应用的特征图片对比为此,可推得如下研究结论:每个流前50~100报文由于其包含应用流建立连接和控制报文的交换信息,而且也会带有少量的其它通信信息,故而选择前50个数据包能够有效地代表数据流。而在每个数据包中,使用相同的传输层协议往往具有相似的传输层结构,不能很好地代表报文特征。研究中为区分应用流,则选择使用了应用层报文。通过统计分析,选择前50字节作为每个数据包的代表特征值。这样一来,每个数据流就可以使用50*50=2 500维数据作为输入向量训练模型。
【参考文献】:
博士论文
[1]基于机器学习的流量分类算法研究[D]. 鲁刚.哈尔滨工业大学 2013
硕士论文
[1]高性能网络应用协议识别技术的研究与应用[D]. 史可.北京邮电大学 2015
[2]基于数据流特征向量识别的P2P僵尸网络检测方法研究[D]. 汤伟.中国海洋大学 2014
[3]基于流量分析的应用识别系统研究与实现[D]. 欧良.湖南大学 2013
本文编号:3066532
【文章来源】:智能计算机与应用. 2020,10(02)
【文章页数】:6 页
【部分图文】:
pcap数据流拼接
首先将每种应用报文按照一字节8位为一维特征,将每种应用的应用流拼接成图像,通过对不同类型的数据流图像进行对比,如图2所示,发现相同的应用类型,如图2(a)与(b)均为QQ消息数据流,具有相似的图像;而不同的应用类型的数据流原报文图像则如2(c)所示,与前2个QQ图像存在较大的差异,所以使用原报文方法是可行的。而后,根据文献[1-4]识别研究过程的原理解析,研究分别选择包长、数据包应用层协议类型、数据包数据段长度等显性特征来绘制出图像;并对TCP头设置push位包数、从客户端到服务器方向,以初始端口发送tcp负载大小和从服务器到客户端平均负载大小等基于数据流的特征进行统计分析。图3随即展示了QQ聊天与其他udp应用前50数据包长度统计对比。其中,蓝色和绿色的线条代表QQ聊天,橙色代表其它的udp应用。显而易见,在前50数据包长度对比上,相似的应用同样具有相似的性质。与此同时,研究还针对其它特征都进行了比对,效果大致相似。图3 QQ聊天与其它udp应用前50数据包长度统计
图2 QQ聊天与其它udp应用的特征图片对比为此,可推得如下研究结论:每个流前50~100报文由于其包含应用流建立连接和控制报文的交换信息,而且也会带有少量的其它通信信息,故而选择前50个数据包能够有效地代表数据流。而在每个数据包中,使用相同的传输层协议往往具有相似的传输层结构,不能很好地代表报文特征。研究中为区分应用流,则选择使用了应用层报文。通过统计分析,选择前50字节作为每个数据包的代表特征值。这样一来,每个数据流就可以使用50*50=2 500维数据作为输入向量训练模型。
【参考文献】:
博士论文
[1]基于机器学习的流量分类算法研究[D]. 鲁刚.哈尔滨工业大学 2013
硕士论文
[1]高性能网络应用协议识别技术的研究与应用[D]. 史可.北京邮电大学 2015
[2]基于数据流特征向量识别的P2P僵尸网络检测方法研究[D]. 汤伟.中国海洋大学 2014
[3]基于流量分析的应用识别系统研究与实现[D]. 欧良.湖南大学 2013
本文编号:3066532
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3066532.html