基因表达谱数据的特征选择方法应用策略研究
本文选题:基因表达谱数据 + 特征基因选择 ; 参考:《第三军医大学》2016年硕士论文
【摘要】:研究背景:随着分子生物学技术和基因微阵列的不断发展,通过定量测量我们可以很容易获取大量的基因表达谱数据,而且得到的数据质量也越来越高。基因表达谱数据具有维数高,样本小,且存在大量噪声的特点。有研究学者针对基因表达谱数据的特点,利用统计学习和模式识别的方法来对数据进行有效的挖掘。目前最为常用的方法是对表达谱数据进行降维,选择出具有代表性的信息基因,在保证具有较高分类精度的前提下同时提高学习算法的性能和效率。特征选择通过剔除不相关和冗余的特征,而达到降低特征个数,提高模型精确性,减少运行时间的目的。目前虽已有了大量的特征选择算法,但如何针对基因表达谱数据结构自身特点来选择最优的算法还存在着一定困难。因此本研究结合生物学和模式识别的相关知识,通过对一些常用的特征选择算法进行比较,最终提出一种可供参考的选择标准。研究方法:本研究中通过模拟不同特征数、样本量、分类情况以及噪声大小的数据集,选用了8个特征选择算法,并在3种分类器中进行测试,以分类精确度和计算复杂度作为衡量指标来对每一种方法的优劣性进行评价。最后将其应用到真实数据集中,并对每种方法的结果进行分析和比较,选择出最佳的特征选择方法。研究结果:对于不同特点的表达谱数据集分别使用三种类别的特征选择方法来分析都能有效的降低特征维度,通过比较分析后我们发现:SVM-RFE算法在特征数较少和样本量较小的时候有很好的分类结果;Wrapper SVM算法在较少样本量和较多PCR特征基因情况下的分类效果较好;Wrapper k-NN算法对具有较少特征数和较多的FCR特征基因数据集有较好的实用性;Relief F算法能很快的从高维数据集中获得特征子集,该算法在特征数较多和样本量较大的情况下效果好;mRMR算法同样适合特征数较多的情况,并在信噪比较高的情况也有也有很好的效果。研究结论:对肿瘤的类别进行划分并从中挖掘有生物学含义的知识时,信息基因的筛选是非常重要的步骤。对分类无关基因的排除可以进一步降低数据量或减少数据的维数,从而提高分类器的性能。本文从已有的大量特征选择算法中,选取了一些常用的方法并针对表达谱数据的不同特点来进行对比研究,最终建立方法应用策略,为基因表达谱数据的分析提供了方法学上的指导。
[Abstract]:Background: with the development of molecular biology technology and gene microarray, it is easy to obtain a large amount of gene expression profile data by quantitative measurement, and the quality of the obtained data is getting higher and higher.The data of gene expression profile have the characteristics of high dimension, small sample and large amount of noise.According to the characteristics of gene expression profile data, some researchers use the methods of statistical learning and pattern recognition to mine the data effectively.At present, the most commonly used method is to reduce the dimension of the expression spectrum data, select the representative information gene, and improve the performance and efficiency of the learning algorithm under the premise of high classification accuracy.By eliminating irrelevant and redundant features, feature selection can reduce the number of features, improve the accuracy of the model and reduce the running time.Although there are a lot of feature selection algorithms, it is still difficult to select the optimal algorithm according to the characteristics of gene expression profile data structure.So this study combined with the knowledge of biology and pattern recognition, through the comparison of some commonly used feature selection algorithms, finally put forward a reference selection criteria.Research methods: in this study, eight feature selection algorithms were selected and tested in three classifiers by simulating data sets of different feature numbers, sample sizes, classification conditions and noise size.The classification accuracy and computational complexity are used to evaluate the advantages and disadvantages of each method.Finally, it is applied to the real data set, and the results of each method are analyzed and compared, and the best feature selection method is selected.The results showed that for the expression data sets with different characteristics, using three kinds of feature selection methods can effectively reduce the feature dimension.Through comparison and analysis, we find that the small number of features and the small sample size of the small number of features of the small number of features and small sample size of the small number of classification results of the wrapper SVM algorithm in the case of less sample size and more PCR feature genes, the classification effect is better than that of the wrapper k-NN algorithm.With fewer feature numbers and more FCR feature gene datasets, Relief F algorithm can quickly obtain feature subsets from high dimensional datasets.The algorithm has good performance in the case of more features and larger sample size. It is also suitable for the case of more features, and also has a good effect in the case of higher signal-to-noise ratio (SNR).Conclusion: the screening of information genes is a very important step in the classification of tumors and the mining of biological knowledge.The elimination of classification independent genes can further reduce the amount of data or reduce the dimension of data, thus improving the performance of the classifier.In this paper, we select some common methods from the existing feature selection algorithms, and compare and study the different characteristics of the expression spectrum data. Finally, we establish the application strategy of the method.It provides methodological guidance for the analysis of gene expression profile data.
【学位授予单位】:第三军医大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4
【相似文献】
相关期刊论文 前10条
1 汪伟;;基于数据库语言实现基因表达谱数据的单因素重复测量方差分析[J];中国医疗设备;2013年11期
2 刘玲;;基因表达谱数据分析技术[J];电脑与信息技术;2010年06期
3 黄宏斌;梁芳;熊炜;李小玲;曾朝阳;李桂源;;生物信息技术加速开发旧药新用途[J];生物化学与生物物理进展;2012年01期
4 张亮,张岩,周一鸣,安爽,果德安,周玉祥,曾令文,程京;用聚类法分析受抗真菌物质处理后的酵母细胞全基因表达谱[J];生物化学与生物物理进展;2002年04期
5 潘海燕,朱军,韩丹夫;分析基因表达谱数据的新方法(英文)[J];浙江大学学报(农业与生命科学版);2004年05期
6 葛世丽,吴德昌;基因表达系列分析及其应用[J];国外医学(放射医学核医学分册);1998年05期
7 葛芳;王年;郭秀丽;;一种改进的谱聚类算法及其在基因表达谱分析中的应用[J];安徽大学学报(自然科学版);2012年05期
8 曹文君;李运明;陈长生;;基因表达谱富集分析方法研究进展[J];生物技术通讯;2008年06期
9 阚海俊;唐俊;苏亮亮;;一种基于邻域不定性信息和记分准则相结合的肿瘤特征基因提取方法[J];安徽大学学报(自然科学版);2014年01期
10 严美娟;万明辉;李春鹏;夏春林;;两型星形胶质细胞基因表达谱差异的初步观察[J];南通大学学报(医学版);2007年01期
相关会议论文 前10条
1 刘艳;李康;傅松滨;;基于小波分析理论的基因表达谱数据分析方法的研究[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
2 张岩;张亮;周一鸣;安爽;果德安;周玉祥;曾令文;程京;;抗真菌物质与酵母细胞作用后全基因表达谱的聚类法分析[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
3 朱明珠;高磊;李霞;;酵母基因表达相关性与蛋白质互作网络距离分析[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
4 高瑞兰;陈小红;林筱洁;钱煦岱;徐卫红;吴超群;;三七皂苷诱导造血细胞基因表达谱的研究[A];中国细胞生物学学会2005年学术大会、青年学术研讨会论文摘要集[C];2005年
5 许沈华;牟瀚舟;顾琳慧;朱赤红;刘祥麟;;用基因芯片筛选高转移卵巢癌转移相关的基因[A];中国细胞生物学学会医学细胞生物学学术大会论文集[C];2006年
6 包雷;过涛;孙之荣;;挖掘基因与抗癌药物间可能的生物学关联[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
7 邱广斌;郝冬梅;宫立国;李云慧;;肿瘤相关新基因MTLC的克隆及在肿瘤中的表达研究[A];第十届全军检验医学学术会议论文汇编[C];2005年
8 高瑞兰;陈小红;林筱洁;钱煦岱;徐卫红;吴超群;;三七皂苷诱导造血细胞基因表达谱的研究[A];第八届全国中西医结合血液病学术会议论文集[C];2007年
9 张幸国;虞朝晖;文思远;;复方丹参注射液对血管内皮细胞基因表达谱的影响研究[A];2006年浙江省药品法规与临床药理学术研讨会论文汇编[C];2006年
10 高瑞兰;林筱洁;陈小红;徐卫红;钱煦岱;吴超群;;三七皂苷诱导造血细胞基因表达谱的研究[A];2007年浙江省血液病学术年会论文汇编[C];2007年
相关重要报纸文章 前10条
1 记者 衣晓峰 通讯员 李小莲;探寻“证”的基因表达谱[N];中国中医药报;2009年
2 晓明;抑制一基因 “老”鼠换新肤[N];中国医药报;2007年
3 记者 张晔 通讯员 周伟;我学者发现多基因表达谱[N];科技日报;2014年
4 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
5 吴煜 杨宇飞 杨焕明;抗肿瘤药研究新思路[N];中药报;2000年
6 周艳萍;寻求肿瘤个体化治疗方案[N];健康报;2006年
7 赵绍华;给孩子减肥必须“饿一饿”[N];健康时报;2007年
8 解放军总医院全军肾脏病研究所教授 吴镝邋王继荣 刘泉 整理;推进肾病科研的四大利器[N];健康报;2008年
9 江苏省中医院转化医学中心 赖仁胜;肿瘤基因组 突破在云端[N];健康报;2011年
10 记者 张学全 张建松;我人类功能基因研究获重要进展[N];新华每日电讯;2000年
相关博士学位论文 前10条
1 王翔;小麦温光反应的分子生物学研究[D];中国农业科学院;2014年
2 牛月;NCA1在拟南芥感受钠盐胁迫过程中功能的研究[D];兰州大学;2012年
3 王作昭;长白山林蛙蛙卵Onconase基因的克隆表达及其抗人乳腺癌作用研究[D];吉林大学;2016年
4 周运;基于生物网络的大鼠再生肝细胞基因表达谱数据分析[D];河南师范大学;2016年
5 张文慧;白桦BPERF11基因响应高盐干旱胁迫的调控机理研究[D];东北林业大学;2016年
6 张伟溪;杨树抗逆转录因子基因遗传转化与功能验证[D];中国林业科学研究院;2014年
7 李伍举;基于基因表达谱的样本分型与分类研究[D];中国人民解放军军事医学科学院;2003年
8 梁欣伟;人脐静脉内皮细胞基因表达谱分析[D];第一军医大学;2006年
9 蔺会云;一条新的转移相关基因mag-1的研究[D];中国人民解放军军事医学科学院;2006年
10 杨志林;恶性胶质瘤相关新基因的筛选、克隆及其特性研究[D];第一军医大学;2001年
相关硕士学位论文 前10条
1 赵月敏;CMFT体外抑瘤活性及对肿瘤细胞基因表达谱的影响[D];河北大学;2015年
2 江月;家蚕TGF-β家族成员dpp和daw基因的功能研究[D];苏州大学;2015年
3 弓春玲;Hela细胞与人子宫内膜基质细胞中miRNA Let-7及其靶基因的关系研究[D];内蒙古大学;2015年
4 罗影涛;腺苷酸环化酶3基因敲除小鼠主要嗅觉表皮基因表达谱分析[D];河北大学;2015年
5 甘斌;基于稀疏性理论的肿瘤基因表达谱分类[D];曲阜师范大学;2015年
6 乔玲波;StOSM基因及其耐旱功能研究[D];宁夏大学;2015年
7 赵学军;家蝇CCTζ基因的cDNA克隆、表达及表达模式研究[D];贵阳医学院;2015年
8 文正勇;鳜鱼生长性状数字基因表达谱分析[D];华中农业大学;2015年
9 李晓宾;Fancd2os基因在小鼠不同组织中的表达谱分析及其真核表达载体的构建与鉴定[D];山西医科大学;2015年
10 陈辉;CIK诱导过程中TCR的表达变化及靶向TCR的基因编辑研究[D];广东药学院;2015年
,本文编号:1755392
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1755392.html