流量识别特征选择算法的研究与改进
发布时间:2024-03-26 22:08
为了对移动互联网进行更细粒度的网络管理,流量识别和检测技术被广泛应用,其根据应用类型的不同可将网络流量划分成不同的类。流量识别有很多实现的技术,如基于端口,基于载荷,基于主机行为的识别方法。在这其中,机器学习法由于它较高的准确率得到人们的广泛关注。 特征选择为机器学习法选择最优特征子集,其对算法的准确率和效率有非常大的影响。为了获得最优特征子集,往往需要对所有可能的特征组合进行测试。当特征数过多时,特征选择将会耗费大量的时间和计算资源。 本文首先简单介绍了流量识别的相关技术,对机器学习分类算法和常见特征选择算法进行了概括和比较。在此基础上提出两种新的特征选择法: 1、基于C4.5决策树的组合树算法。该算法主要利用了C4.5算法的结构特性,在没有实际训练和测试分类器前,可以排除原始特征集中的一些冗余属性。 2、基于SVM-Wrapper与粗糙集相结合的RSF算法。基于粗糙集的属性约简方法简单易用,但当特征数过多时,计算量则会指数级增长。而本文所提出的RSF算法首先通过SVM-Wrapper对原始特征集进行初步约简,在此基础上再使用粗糙集进行属性约简,可以解决属性约简过程中特征数过多所引起...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:3939753
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2.2Adaboost流程图
图2.2Adaboost流程图其中Di为第i轮各个样本在样本集中参与训练的概率。算法流程:1.按照均匀分布从初始样本集中选取子集作为该次的训练集;....
图2.3二维空间的线性分类器
图2.3二维空间的线性分类器需要区分的类别,中间的直线就是一个分类函性函数所区分则为线性可分,否则为线性不可分统一的名称--超平面。平面[17....
图2.4线性可分情况下的最优分类线
图2.4线性可分情况下的最优分类线而H1和H2是平行于H,且过离H最近的两类样本间的距离就是几何间隔。易看出,几何间隔越大,表示该分类函数性能越最....
图2.5两类样本处于同一直线上
图2.5两类样本处于同一直线上c1x+c2x2。==2102,1cccaxyx,则:g(x)=f(y)=y维空间后就线性可分了。<w',x'>....
本文编号:3939753
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3939753.html