基于最近最远邻和互信息的特征选择方法
本文选题:特征选择 切入点:最近最远邻 出处:《计算机应用研究》2017年12期
【摘要】:随着数据量的增加,特征选择已经成为机器学习和数据挖掘领域的研究热点,提出一种基于最近最远邻的特征选择算法。一个数据点与其最近的邻点属于同一集群,与最远的邻点属于不同的集群,通过计算最近最远邻的特征距离可以得到一种判断特征重要性的指标;在此基础上运用互信息方法去除了特征之间的冗余;同时引入了Gradient boosting方法进行模型参数调优,提高了分类准确性。在UCI数据集上进行分类预测,结果表明该算法能够找到较优的特征子集,分类准确性得到一定提升。
[Abstract]:With the increase of data volume, feature selection has become a hot topic in the field of machine learning and data mining. A feature selection algorithm based on nearest farthest neighbor is proposed. A data point belongs to the same cluster as its nearest neighbor. It is different from the farthest neighbor point. By calculating the distance of the nearest farthest neighbor, we can get an index to judge the importance of the feature, and based on this, we remove the redundancy between the features by using the mutual information method. At the same time, the Gradient boosting method is introduced to optimize the model parameters to improve the classification accuracy. The classification prediction on the UCI dataset shows that the algorithm can find a better feature subset, and the classification accuracy is improved to a certain extent.
【作者单位】: 上海理工大学管理学院;
【基金】:国家自然科学基金资助项目(11505114)
【分类号】:TP181;TP311.13
【相似文献】
相关期刊论文 前10条
1 何劲松,施泽生;特征选择方法中的信号分析方法研究[J];中国科学技术大学学报;2001年01期
2 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
3 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期
4 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期
5 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
6 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期
7 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
8 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期
9 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期
10 申清明;闫利军;高建民;赵静;;基于混沌搜索的特征选择方法[J];兵工学报;2013年12期
相关会议论文 前4条
1 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
2 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
相关博士学位论文 前2条
1 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年
2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
相关硕士学位论文 前10条
1 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
2 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
3 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
4 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
5 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
6 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
7 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
8 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
9 张琛馨;文本分类系统设计与实现[D];中山大学;2015年
10 崔明明;视频底层特征选取及其与观众评价的相关分析[D];东北电力大学;2016年
,本文编号:1697695
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1697695.html