基于机器学习的流量分类算法研究
发布时间:2021-07-04 15:02
网络流量分类有助于网络服务提供商优化网络带宽、提高网络服务质量、对特定的应用进行计费,以及监测恶意流量,确保网络安全等。目前流量分类技术主要面临两个挑战:一是,越来越多的网络应用使用随机端口和负载加密技术躲避流量监测,这给流量分类算法的准确率提出了新的挑战。二是,网络出口吞吐量的飞速增长给流量分类算法的实时性提出了更高的要求。本文采用机器学习技术以解决流量分类领域面临的主要问题,从优化特征选择和改进分类算法两个角度来提高流量分类的准确性、稳定性和实时性。全文首先系统地介绍了网络流量分类的主要技术及其特点,总结了流量分类面临的主要困难和研究现状。然后本文以解决类别不平衡问题、流量统计特征的偏置问题以及负载特征自动提取问题为行文脉络,以提高流量分类的准确性、稳定性及实时性为研究目标,针对性地提出了若干改进网络流量分类的算法,具体分为以下几个方面。(1)协议分布的不平衡性使机器学习流量分类算法识别小类别(small class)的检全率低;大类别(large class)产生的数据流的动态变化又会使分类算法的总体准确率不稳定且随着时间的推移逐渐下降。为此,本文提出了改进的Bagging算法。...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:129 页
【学位级别】:博士
【部分图文】:
章节组织结构
图 2-2 每个数据集中各协议流所占的字节比例Fig.2-2 Byte proportion of protocol samples in each data set各种协议流量所占的字节比例如图 2-2 所示。由图 2-1 和图 2-2 对比,我们发现 dump4、dump5 数据集中,http 流比例虽然很大,但字节比例却不是最大- 24 -
性也在逐渐下降,如图 2-5 所示。因此,在本次实验中,新协议流量的出现不是造成分类算法流准确性下降的主要原因。本节进一步分析了每个分类算法的流准确率与分类算法识别 http 检全率之间的关系(如图 2-6 所示)。可见,流准确率与识别 http 的检全率有相同的变化趋势。从图 2-1(如 2.4.2 节所示)可见,http 协议流的样本数所占的比例是最大的,可认为是大类别。因此,在协议分- 30 -
【参考文献】:
期刊论文
[1]基于C4.5决策树的流量分类方法[J]. 徐鹏,林森. 软件学报. 2009(10)
[2]P2P网络中Churn问题研究[J]. 张宇翔,杨冬,张宏科. 软件学报. 2009(05)
[3]基于支持向量机的Internet流量分类研究[J]. 徐鹏,刘琼,林森. 计算机研究与发展. 2009(03)
[4]基于Apriori算法的流量识别特征自动提取方法[J]. 刘兴彬,杨建华,谢高岗,胡玥. 通信学报. 2008(12)
[5]基于复合特征的P2P业务识别系统的研究与实现[J]. 陈庆章,邵奔,陈超. 东南大学学报(自然科学版). 2008(S1)
[6]面向流量识别系统的聚类算法的比较与分析[J]. 苏欣,杨建华,张大方,谢高岗. 计算技术与自动化. 2008(03)
[7]改进的对等网络流量传输层识别方法[J]. 徐鹏,刘琼,林森. 计算机研究与发展. 2008(05)
[8]应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法[J]. 郭振滨,裘正定. 计算机研究与发展. 2008(02)
[9]多模式匹配算法及硬件实现[J]. 李伟男,鄂跃鹏,葛敬国,钱华林. 软件学报. 2006(12)
博士论文
[1]骨干网流监测关键技术研究[D]. 张玉.哈尔滨工业大学 2010
[2]P2P流媒体识别方法的研究[D]. 周丽娟.华中科技大学 2008
[3]串匹配算法及其在网络内容分析中的应用[D]. 谭建龙.中国科学院研究生院(计算技术研究所) 2003
硕士论文
[1]基于特征串的P2P流量识别研究与实现[D]. 赵瑞.电子科技大学 2009
本文编号:3265009
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:129 页
【学位级别】:博士
【部分图文】:
章节组织结构
图 2-2 每个数据集中各协议流所占的字节比例Fig.2-2 Byte proportion of protocol samples in each data set各种协议流量所占的字节比例如图 2-2 所示。由图 2-1 和图 2-2 对比,我们发现 dump4、dump5 数据集中,http 流比例虽然很大,但字节比例却不是最大- 24 -
性也在逐渐下降,如图 2-5 所示。因此,在本次实验中,新协议流量的出现不是造成分类算法流准确性下降的主要原因。本节进一步分析了每个分类算法的流准确率与分类算法识别 http 检全率之间的关系(如图 2-6 所示)。可见,流准确率与识别 http 的检全率有相同的变化趋势。从图 2-1(如 2.4.2 节所示)可见,http 协议流的样本数所占的比例是最大的,可认为是大类别。因此,在协议分- 30 -
【参考文献】:
期刊论文
[1]基于C4.5决策树的流量分类方法[J]. 徐鹏,林森. 软件学报. 2009(10)
[2]P2P网络中Churn问题研究[J]. 张宇翔,杨冬,张宏科. 软件学报. 2009(05)
[3]基于支持向量机的Internet流量分类研究[J]. 徐鹏,刘琼,林森. 计算机研究与发展. 2009(03)
[4]基于Apriori算法的流量识别特征自动提取方法[J]. 刘兴彬,杨建华,谢高岗,胡玥. 通信学报. 2008(12)
[5]基于复合特征的P2P业务识别系统的研究与实现[J]. 陈庆章,邵奔,陈超. 东南大学学报(自然科学版). 2008(S1)
[6]面向流量识别系统的聚类算法的比较与分析[J]. 苏欣,杨建华,张大方,谢高岗. 计算技术与自动化. 2008(03)
[7]改进的对等网络流量传输层识别方法[J]. 徐鹏,刘琼,林森. 计算机研究与发展. 2008(05)
[8]应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法[J]. 郭振滨,裘正定. 计算机研究与发展. 2008(02)
[9]多模式匹配算法及硬件实现[J]. 李伟男,鄂跃鹏,葛敬国,钱华林. 软件学报. 2006(12)
博士论文
[1]骨干网流监测关键技术研究[D]. 张玉.哈尔滨工业大学 2010
[2]P2P流媒体识别方法的研究[D]. 周丽娟.华中科技大学 2008
[3]串匹配算法及其在网络内容分析中的应用[D]. 谭建龙.中国科学院研究生院(计算技术研究所) 2003
硕士论文
[1]基于特征串的P2P流量识别研究与实现[D]. 赵瑞.电子科技大学 2009
本文编号:3265009
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3265009.html