一种基于统计频率的网络流量特征选择方法
本文关键词: 网络流量分类 多类不均衡 统计频率 特征选择 出处:《小型微型计算机系统》2016年11期 论文类型:期刊论文
【摘要】:在对多类不均衡的网络流量进行分类时,基于机器学习的分类模型倾向于多数类,导致少数类召回率较低.针对该问题,提出一种基于统计频率的特征选择方法.该方法首先根据样本的统计频率计算出度量每个特征区分能力的特征选择系数,然后根据特征选择系数构建特征选择矩阵,最后为每个类选择与之相关性较强的特征.在实验阶段,使用该方法选择的特征对多类不均衡的网络流量进行分类获得了较高的整体准确率、少数类召回率和g-mean值,证明该方法可以减轻多类不均衡问题带来的不良影响.
[Abstract]:The classification model based on machine learning tends to most classes, which leads to a low recall rate of a few classes. A feature selection method based on statistical frequency is proposed. Firstly, based on the statistical frequency of the sample, the feature selection coefficient is calculated to measure the distinguishing ability of each feature. Then the feature selection matrix is constructed according to the feature selection coefficient. Finally, each class selects the feature with strong correlation. The features selected by this method are used to classify the multi-class unbalanced network traffic and obtain higher overall accuracy, a few class recall rate and g-mean value. It is proved that this method can reduce the adverse effects of many kinds of unbalanced problems.
【作者单位】: 上海大学通信与信息工程学院;中国科学院上海高等研究院;
【基金】:国家自然科学青年基金项目(61302093)资助 上海市科委重大项目(14511101505)资助;上海市科委院市合作专项(13DZ1511200)资助 中科院重点部署项目(KGZW-EW-103)资助 东南大学移动通信国家重点实验室开放研究基金项目(2013D07)资助
【分类号】:TP393.06
【正文快照】: 1引言网络流量分类对于实现网络监管、提高服务质量以及维护网络安全具有重要意义.传统基于端口的分类技术难以对灵活使用端口号的流量进行分类;基于深度包检测的分类技术在数据进行加密的情况下准确率较低,并且在一定程度上侵犯了用户的隐私权[1].因此,基于机器学习的网络流
【相似文献】
相关期刊论文 前10条
1 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
2 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期
3 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期
4 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
5 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期
6 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
7 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期
8 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期
9 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期
10 申清明;闫利军;高建民;赵静;;基于混沌搜索的特征选择方法[J];兵工学报;2013年12期
相关会议论文 前6条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
相关博士学位论文 前4条
1 刘明霞;属性学习若干重要问题的研究及应用[D];南京航空航天大学;2015年
2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
3 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年
4 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
相关硕士学位论文 前10条
1 曹晋;基于SVDD的特征选择方法研究及其应用[D];苏州大学;2015年
2 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
3 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
4 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
5 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
6 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
7 王丹;特征选择算法研究及其在异常检测中的应用[D];电子科技大学;2014年
8 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
9 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
10 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
,本文编号:1449593
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1449593.html