基于最大信息系数和近似马尔科夫毯的特征选择方法
本文关键词: 特征选择 最大信息系数 近似马尔科夫毯 特征相关性 特征冗余性 出处:《自动化学报》2017年05期 论文类型:期刊论文
【摘要】:最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
[Abstract]:The maximum information coefficient can be used to measure the linear and nonlinear relationships among variables, as well as non-functional dependencies. In this paper, a metric is proposed to evaluate the correlation between the features of each dimension, and the correlation between the features of each dimension and the categories. Then, an approximate Markov carpet feature selection method based on the new metric is proposed. Based on the deletion of redundant features, a two-stage feature selection method based on feature ranking and approximate Markov blanket is proposed, and the correlation and redundancy of features are analyzed respectively. The comparison experiments on several open datasets on UCI and ASU show that the proposed method is superior to the fast correlation filter fast correlation-based filter method and also has advantages over the Relief FAST Lasso and RFS methods.
【作者单位】: 哈尔滨理工大学计算机科学与技术学院;哈尔滨理工大学信息安全与智能技术研究中心;
【基金】:国家自然科学基金(60903083,61502123) 黑龙江省新世纪人才项目(1155-ncet-008)资助~~
【分类号】:TP301.6
【相似文献】
相关期刊论文 前10条
1 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
2 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期
3 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期
4 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
5 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期
6 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
7 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期
8 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期
9 申清明;闫利军;高建民;赵静;;基于混沌搜索的特征选择方法[J];兵工学报;2013年12期
10 蒋宗礼;李涵昱;;面向排序学习的锦标赛排序特征选择方法[J];计算机技术与发展;2014年02期
相关会议论文 前4条
1 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
2 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
相关博士学位论文 前2条
1 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
2 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
相关硕士学位论文 前10条
1 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
2 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
3 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
4 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
5 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
6 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
7 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
8 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
9 张琛馨;文本分类系统设计与实现[D];中山大学;2015年
10 崔明明;视频底层特征选取及其与观众评价的相关分析[D];东北电力大学;2016年
,本文编号:1512450
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1512450.html