当前位置:主页 > 科技论文 > 基因论文 >

最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法

发布时间:2018-03-05 19:16

  本文选题:基因选择 切入点:差异表达基因 出处:《陕西师范大学学报(自然科学版)》2017年01期  论文类型:期刊论文


【摘要】:针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。
[Abstract]:Aiming at the defects of the ARCO(AUC and rank correlation coefficient optimization algorithm, which uses the Spelman rank correlation coefficient to measure the redundancy of the selected feature subset, the information loss and the inconsistent range of the feature correlation and redundancy measures are obtained when the ARCO(AUC and rank correlation coefficient optimization algorithm is used to select the two kinds of features. This paper proposes an improved Pearson correlation coefficient to measure feature redundancy, and normalizes the measurement range of feature correlation and redundancy, and obtains the APCO(AUC and improved Pearson correlation coefficient optimization algorithm to overcome the shortcomings of ARCO algorithm. To solve the problem that MAUCD(using MAUC as the relevance metric to rank features directly) and MDFS(MAUC decomposition based feature selection method realize multi-class feature selection without considering feature redundancy, MDFS is easy to select to the locally optimal feature subset. An improved Pearson correlation coefficient for multi-class problems is proposed to measure feature redundancy. The MAUCP and MDFSP algorithms based on the framework of mRMR(maximal relevance-minimal are proposed to overcome the shortcomings of the MAUCD and MDFS algorithms. SVMNB and KNN are used as classification tools. A corresponding classifier based on the selected feature subset is constructed, and the performance of the corresponding feature subset is measured by its AUCMAUC value. The experimental results of 7 classes and 3 classes of unbalanced gene data sets show that the proposed algorithms are superior to ARCOOMAUCD and MDFS algorithms, respectively. It is also superior to other classical gene selection algorithms.
【作者单位】: 陕西师范大学计算机科学学院;
【基金】:陕西省科技攻关项目(2013K12-03-24) 国家自然科学基金(61673251) 中央高校基本科研业务费专项资金(GK201503067)
【分类号】:Q811.4

【相似文献】

相关期刊论文 前10条

1 陈勃杭;王巍;;追问“基因选择”[J];哲学分析;2013年02期

2 许文龙;王立荣;张相华;冯焕清;;基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J];中国科学技术大学学报;2009年08期

3 段旭;高尚;;微阵列基因选择约简方法[J];电子设计工程;2011年21期

4 黄海燕;;高矮胖瘦由你说[J];大众科技;1999年08期

5 张军英,Y.J.Wang,J.Khan,R.Clarke;基于类别空间的基因选择[J];中国科学E辑:技术科学;2003年12期

6 李小波;;多步骤降维的肿瘤特征基因选择方法[J];复旦学报(自然科学版);2008年04期

7 杨昆;徐静;张彦斌;;基因选择的0-1规划模型和算法[J];计算机工程与应用;2010年20期

8 陈留院;穆晓霞;李钧涛;;基于自适应双正则化支持向量机的群体基因选择[J];郑州大学学报(理学版);2014年01期

9 黄海燕;;胖瘦将由你掌握——人类未来饮食的重大变革[J];大科技;1999年05期

10 张军英;刘申岭;Yue Wang;;基于支持向量机和多层感知器的多病类诊断基因选择方法[J];自然科学进展;2007年10期

相关会议论文 前3条

1 任伟;闫桂英;;利用聚类算法来研究基因选择问题[A];中国运筹学会第八届学术交流会论文集[C];2006年

2 张春美;;守望生命,关注人的尊严——基因伦理的若干热点问题[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年

3 李卉卉;袁谷;;血管内皮生长因子(VEGF)基因启动子区G-四链体识别的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年

相关重要报纸文章 前2条

1 郑诗亮;薛人望谈基因与生命[N];东方早报;2011年

2 本报记者 章勇;基因选择和饲养管理可改善羊肉颜色[N];中国畜牧兽医报;2014年

相关硕士学位论文 前7条

1 高红超;基于聚类的基因选择算法和DPC聚类算法研究[D];陕西师范大学;2015年

2 周萍;基于频度与联合效应的基因选择[D];西安电子科技大学;2009年

3 曹涛;基于聚类的混合基因选择方法研究[D];湖南大学;2011年

4 姬翔;基于SVM的多病类诊断基因选择方法研究[D];西安电子科技大学;2005年

5 吴希贤;基于优化算法的基因选择与癌症分类[D];湖南大学;2008年

6 刘申岭;基于SVM的基因选择[D];西安电子科技大学;2004年

7 陆燕;基于启发式聚类的混合特征基因选择方法研究[D];湖南大学;2010年



本文编号:1571532

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1571532.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d235***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com