一种结合随机森林和邻域粗糙集的特征选择方法
发布时间:2018-01-13 03:16
本文关键词:一种结合随机森林和邻域粗糙集的特征选择方法 出处:《小型微型计算机系统》2017年06期 论文类型:期刊论文
更多相关文章: 肿瘤基因数据 随机森林特征封装 Relief算法 邻域粗糙集 特征选择
【摘要】:针对肿瘤基因数据具有高维小样本的特性,为了提高传统基因分类方法的正确率,提出一种结合随机森林和邻域粗糙集的特征基因选择方法(Random Forest and Neighborhood Rough Set,RFNRS).该方法首先利用Relief算法,对原始的肿瘤基因数据进行权重选择,去除权重较低的特征子集;接着引入基于随机森林的封装式特征选择算法(Random Forest Wrapper Feature Select,RFWFS),以模型准确率作为评判准则,筛选特征子集;然后引入邻域粗糙集针对连续性的特征子集进行寻优处理;最后利用多个经典分类算法处理特征子集.经实验结果表明,该方法不仅在肿瘤基因特征子集的选择上具有良好的性能,同时在算法的分类性能上也有所提高.
[Abstract]:In order to improve the accuracy of traditional gene classification methods, tumor gene data have the characteristics of high dimension and small sample. In this paper, a method of feature gene selection based on random Forest and Neighborhood Rough Set combined with random forest and neighborhood rough sets is proposed. Firstly, the Relief algorithm is used to select the weight of the original tumor gene data to remove the feature subset with lower weight. Then the random Forest Wrapper Feature selection algorithm based on random forest is introduced. The accuracy of the model is used as the criterion to select the feature subset. Then the neighborhood rough set is introduced to optimize the feature subset of continuity. Finally, several classical classification algorithms are used to deal with feature subsets. The experimental results show that this method not only has good performance in the selection of tumor gene feature subset, but also improves the classification performance of the algorithm.
【作者单位】: 兰州交通大学电子与信息工程学院;
【基金】:国家自然科学基金项目(61163010)资助 甘肃省自然科学基金项目(1308RJZA111)资助 兰州市科技计划项目(2015-2-99)资助
【分类号】:R73;TP18
【正文快照】: 1引言随着基因信息技术的飞速发展,基因数据[1-2]的获取也变得越来越容易和方便,基因数据为探索生物的发病原因和为提高医疗临床诊断效率提供良好的诊断依据,如何利用有效手段分析高维、小样本的基因数据是目前研究的热点.基因数据本身所具有的高维性、小样本性、噪属性高、冗
【相似文献】
相关期刊论文 前1条
1 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期
相关硕士学位论文 前2条
1 蒋雪晴;基于随机森林和BSS特征的PET-CT肺肿瘤分割[D];苏州大学;2016年
2 陈岩;基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究[D];杭州电子科技大学;2009年
,本文编号:1417223
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1417223.html