当前位置:主页 > 管理论文 > 移动网络论文 >

基于信息熵和迭代SVM的特征选择方法研究

发布时间:2020-06-11 03:49
【摘要】:分类模型作为一种机器学习常用的模型,是入侵检测系统中最基本的模型。由于近些年以来,互联网行业的快速发展,安全数据的量级产生了指数级的增长,因此在准确率以及实时性方面都对分类模型提出了新的要求。如何使模型变得简单的同时保证准确率,是目前安全分析领域研究的重点。特征选择方法研究的是如何从特征集合中选出对分类问题重要的特征子集。对安全分析数据集进行特征选择可以去除冗余的、跟安全分析目的无关的特征,使后续的分析模型变得简单高效的同时避免过拟合的出现。因此基于上述思想,本文研究一种特征子集选择方法。主要工作如下:首先,提出了一种基于信息熵理论以及模糊集知识的特征熵值计算方法,由于熵能够很好的表明变量的不确定性,因此每一个特征在训练数据集上的熵值表明其对分类问题不确定性的影响。基于此思想本文提出的方法可以计算特征重要性排名矩阵。该方法运行在预处理阶段,即在搭建分类模型之前就可以给出特征排名。其次,本文提出了一种基于迭代支持向量机(Support Vector Machines,SVM)的特征子集选择方法,该方法通过迭代学习支持向量机模型,选取最优的特征子集。刚开始的时候特征子集为空集,在迭代的每一步会选择一个特征加入子集当中。特征的选择主要依据两点,分别是特征重要性排名以及该特征对SVM目标函数带来的影响,其中特征重要性排名由第一部分提出的算法给出。迭代过程一直持续到SVM模型在测试集上的准确率不再提高,此时选取的特征子集是对分类问题最高效的一组特征组合。最后,在入侵检测系统(Intrusion Detection System,IDS)数据集UNSW-NB15上将本文所提的特征选择方法与其他经典的方法进行了比较,实验结果表明,本文提出的方法在提高准确率的同时降低了模型的复杂度。
【图文】:

数据集,算法,情况,分类模型


图 4.2 对 UNSW-NB15 数据集执行 FIBE 算法后特征保留情况图 4.2 展示了 FIBE 算法对 UNSW-NB15 中的特征给出的重要性排名,执行实验过程(8)中描述的过程搭建分类模型之后,删除的特征如图中红色部分所示,蓝色为保留的特征。

对比图,算法性能,对比图,准确率


图 4.4 FIBE 算法性能对比图如图 4.4 所示,开始时 4 中方法在训练集上的准确率较为相近,但随着移除特征数量的增加,本文提出的 FIBE 算法相比于其它 3 种方法,保持较高的性能。尤其当移除25 个特征时,,本文所提的 FIBE 算法的分类准确率可以保持 0.85 的水平,而其它 3 中方法此时的准确率分别是 0.5、0.65 以及 0.5。意味着本文所提的算法只采用 UNSW-NB15
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.08;TP181

【相似文献】

相关期刊论文 前10条

1 赵玮;;采用机器学习的聚类模型特征选择方法比较[J];华侨大学学报(自然科学版);2017年01期

2 严菲;王晓栋;;基于局部判别约束的半监督特征选择方法[J];模式识别与人工智能;2017年01期

3 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期

4 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期

5 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期

6 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期

7 王欣欣;;混合自适应引力搜索优化的特征选择方法[J];计算机工程与应用;2017年12期

8 戴建国;;一种新的有监督特征选择方法[J];陕西理工大学学报(自然科学版);2017年04期

9 徐璐;李雄伟;张阳;王晓晗;桂伟龙;;基于概率分布的硬件木马检测特征选择方法[J];火力与指挥控制;2017年09期

10 王晓栋;严菲;谢勇;江慧琴;;基于稀疏图表示的特征选择方法研究[J];计算机工程与科学;2015年12期

相关会议论文 前10条

1 李高明;易东;;基因表达谱高维大数据的特征选择方法应用策略[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年

3 唐凤珍;Lukas Adam;斯白露;;基于多类别支持向量机的组特征选择方法[A];第四届全国神经动力学学术会议摘要集[C];2018年

4 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

6 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年

7 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

9 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

10 陈鑫;梁海洁;廖腾峰;;基于TSVM分类器和混合型特征选择方法的入侵检测研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

相关博士学位论文 前10条

1 潘吴斌;加密流量精细化分类技术研究[D];东南大学;2018年

2 杜利敏;面向不平衡数据的特征选择与半监督分类算法研究[D];西南交通大学;2017年

3 吴越;面向网站无障碍检测的组稀疏特征选择方法的研究及应用[D];浙江大学;2018年

4 边婧;不平衡网络异常数据代价敏感特征及实例选择[D];太原理工大学;2016年

5 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年

6 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年

7 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年

8 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年

9 于哲夫;一种新的特征选择方法及其在路面使用性能分析中的应用[D];大连海事大学;2011年

10 毕超;人脸识别中若干特征优化方法研究[D];东北师范大学;2017年

相关硕士学位论文 前10条

1 张尧;基于互信息的特征选择方法研究[D];西安理工大学;2019年

2 张英杰;基于文档层词频重排序的特征选择方法的研究与应用[D];西安理工大学;2019年

3 金姗姗;射频指纹特征选择与降维方法研究[D];哈尔滨工程大学;2019年

4 潮洛蒙;基于信息熵和迭代SVM的特征选择方法研究[D];哈尔滨工程大学;2019年

5 张玉梅;基于流形规整的扩展自适应Lasso多类别特征选择方法研究[D];安徽大学;2019年

6 戴建国;基于类别概率的特征选择方法[D];广州大学;2018年

7 黄磊;癌症分类中基因选择的收缩特征选择算法研究[D];湖南大学;2015年

8 李晨阳;肿瘤基因表达数据的特征选择方法研究[D];兰州交通大学;2018年

9 余跃;两阶段特征选择法研究及其在企业信用风险评价中的应用[D];北京交通大学;2018年

10 董利梅;基于标签结构的特征选择方法研究[D];闽南师范大学;2018年



本文编号:2707330

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2707330.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87f51***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com