面向基因表达谱数据分类的特征选择方法研究
发布时间:2021-08-27 04:27
基因表达谱是大量基因表达水平信息的集合。研究表明,癌症的发生在分子水平上通常表现为基因表达水平的改变。因此,利用基因表达谱来判别出与癌症密切相关的少量基因,对癌症的诊断和治疗具有重要意义。而基因表达谱数据通常具有维度高样本量低的特点,这给传统机器学习方法带来了挑战。在判别少量致病基因之前,需要从成千上万基因中去除大量无关基因,其中特征选择是一种有效手段。本文以多个公共的基因表达谱数据集为基础,利用特征选择方法筛选出在癌症中具有差异性表达的基因,并由此指导后续的分类任务,将最终的分类性能作为我们基因选择方法的评价标准。围绕基因表达谱数据分类的基因选择问题,本文主要做了如下工作:1)基因表达谱数据的数值表征了基因的表达水平,相邻数据之间不具有连续性,同时在数据采集的过程中经常包含噪声,基于此本文引入了离散化的数据预处理方式。通过与其他数据预处理方式对比,验证了基因表达谱数据的离散化处理能够带来更优的分类准确率。2)对于具有高维小样本特性的数据,过滤式的特征选择算法能够快速且有效地得到在不同类别上具有差异表达的特征,但不同的过滤式方法得到的关键特征往往存在较大差异,分类稳定性不高。因此本文利...
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2.5支持向量机原理图??
征选择方法以及不同离散度的数据集组合进行实验,可以更完整地检验方法的健??壮性。??本文实验过程如图3.1所示,因为本文最终是探究特征选择方法,所以实验??将原始数据集和A取不同值的离散化数据集分别作用于不同的特征选择方法,分??别选取4个重要基因,随后将选出的特征基因作用于不同的分类器,最终得到模??型的分类准确率或错误率。实验结果如图3.2和图3.3所示。??丨??_??'*1?—?_!参考??\?——飄参考??1?T-test??^?1-?-?|?T ̄test参考??5?'????W.?1?\??1C?I?\? ̄??_!?_?A.?-?-??????????_____?一[??1?\?/??1????VV?:??/??2?4?6?8?1C?12?14?16??图3.2不同特征选择方法的分类错误率随离散化程度々变化图,其中MI为互信??息方法,SNR为基于信噪比方法,T-test为T检验方法??26??
第三章基因表达谱数据预处理??图3.2显示了不同特征选择方法下模型分类错误率随离散化程度;t的变化关??系,需要注意的是每种特征选择方法都对应一组分类器的结果,所以此处的分类??错误率取该组分类器的平均值。图中每种线型都对应两条线,其中一条是原始数??据集的分类结果作为参考,所以它是一条直线;而另一条无规则的曲线为特征选??择方法跟随数据离散化程度变化的分类错误率结果。??从图中可以看到T-test方法下当离散化程度A等于4,11和12时,以及MI??方法下〖等于2至5,10以及17时它们的结果稍比参考值来得差,其他总体上??任一特征选择方法的分类错误率都比参考值来得低,特别是基于SNR的方法,??分类错误率普遍比参考值低2到3个百分点。??—SVM??—SVM#?考??2C?-?——酬??_?_峨N参考??2?15?-?乇#考??H????咪???:??^?10?-?^?-??\??2?4?6?3?1〇?12?14?16??图3.3不同分类器的分类错误率随离散化程度A变化图,其中SVM、KNN和??NB分别表示支持向量机、K近邻以及朴素贝叶斯分类器??图3.3显示了不同分类器作用下分类错误率与离散化程度A?的关系
【参考文献】:
期刊论文
[1]基于SVM-RFE-BPSO算法的特征选择方法[J]. 林俊,许露,刘龙. 小型微型计算机系统. 2015(08)
[2]基于特征子集区分度与支持向量机的特征选择算法[J]. 谢娟英,谢维信. 计算机学报. 2014(08)
[3]基于Relief和SVM-RFE的组合式SNP特征选择[J]. 吴红霞,吴悦,刘宗田,雷州. 计算机应用研究. 2012(06)
[4]基于SVM-RFE-SFS的基因选择方法[J]. 游伟,李树涛,谭明奎. 中国生物医学工程学报. 2010(01)
[5]肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J]. 李颖新,李建更,阮晓钢. 计算机学报. 2006(02)
[6]Accelerated Recursive Feature Elimination Based on Support Vector Machine for Key Variable Identification[J]. 毛勇,皮道映,刘育明,孙优贤. Chinese Journal of Chemical Engineering. 2006(01)
本文编号:3365646
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2.5支持向量机原理图??
征选择方法以及不同离散度的数据集组合进行实验,可以更完整地检验方法的健??壮性。??本文实验过程如图3.1所示,因为本文最终是探究特征选择方法,所以实验??将原始数据集和A取不同值的离散化数据集分别作用于不同的特征选择方法,分??别选取4个重要基因,随后将选出的特征基因作用于不同的分类器,最终得到模??型的分类准确率或错误率。实验结果如图3.2和图3.3所示。??丨??_??'*1?—?_!参考??\?——飄参考??1?T-test??^?1-?-?|?T ̄test参考??5?'????W.?1?\??1C?I?\? ̄??_!?_?A.?-?-??????????_____?一[??1?\?/??1????VV?:??/??2?4?6?8?1C?12?14?16??图3.2不同特征选择方法的分类错误率随离散化程度々变化图,其中MI为互信??息方法,SNR为基于信噪比方法,T-test为T检验方法??26??
第三章基因表达谱数据预处理??图3.2显示了不同特征选择方法下模型分类错误率随离散化程度;t的变化关??系,需要注意的是每种特征选择方法都对应一组分类器的结果,所以此处的分类??错误率取该组分类器的平均值。图中每种线型都对应两条线,其中一条是原始数??据集的分类结果作为参考,所以它是一条直线;而另一条无规则的曲线为特征选??择方法跟随数据离散化程度变化的分类错误率结果。??从图中可以看到T-test方法下当离散化程度A等于4,11和12时,以及MI??方法下〖等于2至5,10以及17时它们的结果稍比参考值来得差,其他总体上??任一特征选择方法的分类错误率都比参考值来得低,特别是基于SNR的方法,??分类错误率普遍比参考值低2到3个百分点。??—SVM??—SVM#?考??2C?-?——酬??_?_峨N参考??2?15?-?乇#考??H????咪???:??^?10?-?^?-??\??2?4?6?3?1〇?12?14?16??图3.3不同分类器的分类错误率随离散化程度A变化图,其中SVM、KNN和??NB分别表示支持向量机、K近邻以及朴素贝叶斯分类器??图3.3显示了不同分类器作用下分类错误率与离散化程度A?的关系
【参考文献】:
期刊论文
[1]基于SVM-RFE-BPSO算法的特征选择方法[J]. 林俊,许露,刘龙. 小型微型计算机系统. 2015(08)
[2]基于特征子集区分度与支持向量机的特征选择算法[J]. 谢娟英,谢维信. 计算机学报. 2014(08)
[3]基于Relief和SVM-RFE的组合式SNP特征选择[J]. 吴红霞,吴悦,刘宗田,雷州. 计算机应用研究. 2012(06)
[4]基于SVM-RFE-SFS的基因选择方法[J]. 游伟,李树涛,谭明奎. 中国生物医学工程学报. 2010(01)
[5]肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J]. 李颖新,李建更,阮晓钢. 计算机学报. 2006(02)
[6]Accelerated Recursive Feature Elimination Based on Support Vector Machine for Key Variable Identification[J]. 毛勇,皮道映,刘育明,孙优贤. Chinese Journal of Chemical Engineering. 2006(01)
本文编号:3365646
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3365646.html