基于离散载荷特征的即时通讯软件流量分类方法
发布时间:2021-11-09 06:31
随着大数据时代到来,海量即时通讯软件流量分类成为解决网络拥塞、安全监管、网络异常检测等研究的基础。针对传统流量识别与分类技术准确率低、速率慢等问题,文章提出一种基于离散载荷特征的即时通讯软件流量分类技术。该技术通过对通讯软件报文数据进行五元组数据提纯,利用信息熵对载荷特征进行离散化,结合XGBoost构建通讯软件数据报文的二分类模型,同时将其效果与随机森林、SVM和朴素贝叶斯的方法做对比试验。结果表明,这种方法较传统流量分类方法准确率提高4.3%,与采用连续特征分类相比分类准确率提高2.3%,同时具有处理速度快、适用性广泛的特点。
【文章来源】:网络空间安全. 2020,11(08)
【文章页数】:6 页
【部分图文】:
五元组聚类示意图
为了能充分利用报文中所有信息,又能准确提取有价值数据降低数据维度,此次提纯的方式采用五元组(源IP地址、源端口、目的IP地址、目的端口、传输层协议)识别的方式进行,首先采用五元组对各流量数据进行聚类,然后对于聚类后的数据,剔除数据链路层、网络层、传输层数据维度,提取传输层有效净载荷构建识别模型[4~6]。通过这种方式获取到的报文基本只属于对应的通讯软件,由此获得纯净的输入数据。报文的示意图如图1所示。对每条报文去除五元组头部信息,只保留数据部分,为了防止心跳报文等空报文的影响,同时避免数据字段后续部分无用信息的影响,只保留每条报文前50个字节长度的数据,同时舍去小于9个字节的报文数据,对于大于9个字节不足50个字节的数据设置缺失值为0。同时以每条报文中每个字节为一个特征维度,将每个十六进制数转换为十进制数,对于每一条报文数据,这样可以得到一个特征维度为50的输入向量,每个特征均为正整数数值类型。为避免类别数量不均衡带来不良影响,设置获取的每种类别报文均为10,000条。数据准备过程示意图如图2所示。
对每条报文去除五元组头部信息,只保留数据部分,为了防止心跳报文等空报文的影响,同时避免数据字段后续部分无用信息的影响,只保留每条报文前50个字节长度的数据,同时舍去小于9个字节的报文数据,对于大于9个字节不足50个字节的数据设置缺失值为0。同时以每条报文中每个字节为一个特征维度,将每个十六进制数转换为十进制数,对于每一条报文数据,这样可以得到一个特征维度为50的输入向量,每个特征均为正整数数值类型。为避免类别数量不均衡带来不良影响,设置获取的每种类别报文均为10,000条。数据准备过程示意图如图2所示。对所有的原始报文流数据,依据五元组特征对五元组进行聚类,通过报文提纯的方式对各五元组提取其中的有效载荷,具体聚类流程如图3所示。
【参考文献】:
期刊论文
[1]基于信息熵的溶解氧传感器数据融合处理方法[J]. 高皜,曹琳,熊学军. 山东科技大学学报(自然科学版). 2019(06)
[2]DPI:运营商大数据安全运营的基石[J]. 谷红勋,张霖. 网络空间安全. 2016(07)
[3]互联网流量识别研究综述[J]. 彭立志. 济南大学学报(自然科学版). 2016(02)
[4]基于载荷特征的加密流量快速识别方法[J]. 陈伟,胡磊,杨龙. 计算机工程. 2012(12)
[5]利用流量特征的GIDS报文分类优化算法[J]. 宁卓,孙知信,龚俭,张维维. 电子学报. 2012(03)
[6]基于信息熵的粗糙集连续属性离散化算法[J]. 谢宏,程浩忠,牛东晓. 计算机学报. 2005(09)
本文编号:3484808
【文章来源】:网络空间安全. 2020,11(08)
【文章页数】:6 页
【部分图文】:
五元组聚类示意图
为了能充分利用报文中所有信息,又能准确提取有价值数据降低数据维度,此次提纯的方式采用五元组(源IP地址、源端口、目的IP地址、目的端口、传输层协议)识别的方式进行,首先采用五元组对各流量数据进行聚类,然后对于聚类后的数据,剔除数据链路层、网络层、传输层数据维度,提取传输层有效净载荷构建识别模型[4~6]。通过这种方式获取到的报文基本只属于对应的通讯软件,由此获得纯净的输入数据。报文的示意图如图1所示。对每条报文去除五元组头部信息,只保留数据部分,为了防止心跳报文等空报文的影响,同时避免数据字段后续部分无用信息的影响,只保留每条报文前50个字节长度的数据,同时舍去小于9个字节的报文数据,对于大于9个字节不足50个字节的数据设置缺失值为0。同时以每条报文中每个字节为一个特征维度,将每个十六进制数转换为十进制数,对于每一条报文数据,这样可以得到一个特征维度为50的输入向量,每个特征均为正整数数值类型。为避免类别数量不均衡带来不良影响,设置获取的每种类别报文均为10,000条。数据准备过程示意图如图2所示。
对每条报文去除五元组头部信息,只保留数据部分,为了防止心跳报文等空报文的影响,同时避免数据字段后续部分无用信息的影响,只保留每条报文前50个字节长度的数据,同时舍去小于9个字节的报文数据,对于大于9个字节不足50个字节的数据设置缺失值为0。同时以每条报文中每个字节为一个特征维度,将每个十六进制数转换为十进制数,对于每一条报文数据,这样可以得到一个特征维度为50的输入向量,每个特征均为正整数数值类型。为避免类别数量不均衡带来不良影响,设置获取的每种类别报文均为10,000条。数据准备过程示意图如图2所示。对所有的原始报文流数据,依据五元组特征对五元组进行聚类,通过报文提纯的方式对各五元组提取其中的有效载荷,具体聚类流程如图3所示。
【参考文献】:
期刊论文
[1]基于信息熵的溶解氧传感器数据融合处理方法[J]. 高皜,曹琳,熊学军. 山东科技大学学报(自然科学版). 2019(06)
[2]DPI:运营商大数据安全运营的基石[J]. 谷红勋,张霖. 网络空间安全. 2016(07)
[3]互联网流量识别研究综述[J]. 彭立志. 济南大学学报(自然科学版). 2016(02)
[4]基于载荷特征的加密流量快速识别方法[J]. 陈伟,胡磊,杨龙. 计算机工程. 2012(12)
[5]利用流量特征的GIDS报文分类优化算法[J]. 宁卓,孙知信,龚俭,张维维. 电子学报. 2012(03)
[6]基于信息熵的粗糙集连续属性离散化算法[J]. 谢宏,程浩忠,牛东晓. 计算机学报. 2005(09)
本文编号:3484808
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3484808.html