基因表达谱数据挖掘的特征提取方法研究
发布时间:2017-11-03 03:34
本文关键词:基因表达谱数据挖掘的特征提取方法研究
更多相关文章: 基因表达谱 子模性质 特征提取 局部保持投影
【摘要】:随着新分子生物学技术和DNA微阵列技术的迅速发展,在生物样本中可以同时定量测量数以万计的基因表达水平,使用这一技术产生的基因表达谱数据能够揭开隐含的、以前未知的生物学知识。近几年来,研究学者利用统计学和模式识别等知识对微阵列基因表达谱数据进行分析,对致病的肿瘤基因进行有效的挖掘,从而对肿瘤的类型作出准确的诊断和分类预测。然而针对高维小样本特点的肿瘤基因表达谱数据来说,传统的数据处理方法在对肿瘤数据进行分析之前,普遍都是将高维度的肿瘤数据转换为低维度之后再进行处理,在保证分类识别精度的同时提高学习方法的性能和计算效率。本文通过结合生物信息学和模式识别中的相关知识,对高维小样本特点的肿瘤数据进行特征基因的提取,并对相应的实验结果进行了有效性分析,其主要研究内容如下:1.提出一种基于子模态性质的特征基因选择算法。首先,考虑到肿瘤基因表达谱数据基因之间相关性的特点,将独立的基因属性转变为具有结构信息的邻接图;其次,对表征基因关系的邻接矩阵构建子模性质的特征选择目标函数,然后使用贪心算法求解,获得相应的特征基因子集;最后,将训练样本选取的特征子集运用到测试样本分类中,使用KNN和SVM分类器进行分类识别,通过对实验结果的分析说明了该方法的有效性。2.针对高维小样本特点的肿瘤基因表达谱数据,将局部保持投影降维方法应用于肿瘤基因表达谱特征基因提取中。该方法首先使用主成分分析口CA)对高维的原始数据进行降维和去噪,将处理后的数据通过保留99%的主成分作为对原始数据的表征;然后利用LPP能够保持局部特征的优点作降维约减,在肿瘤数据上对特征基因进行信息提取;最后分别使用KNN分类器和SVM分类器对肿瘤数据进行有效分类,通过对三组公开的真实数据集进行实验与结果分析,验证了该方法的可行性和有效性。
【关键词】:基因表达谱 子模性质 特征提取 局部保持投影
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R73-3;Q811.4;TP311.13
,
本文编号:1134499
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1134499.html