非负矩阵分解及在基因表达数据分析中的应用研究
发布时间:2017-12-21 03:00
本文关键词:非负矩阵分解及在基因表达数据分析中的应用研究 出处:《曲阜师范大学》2015年硕士论文 论文类型:学位论文
更多相关文章: 基因表达数据分析 聚类分析 特征基因提取 非负矩阵分解 基因本体论
【摘要】:生物信息学作为一门集计算机科学、统计学及应用数学于一体的新兴交叉学科,被用来解释和研究隐藏的生物资源,进一步揭示隐藏在大量数据背后的生物奥秘。随着科技的迅速发展,每天都有成千上万的数据被输入生物数据库。在生物信息学中,怎样从大量的基因表达数据中准确而又高效率地找出潜在的基因功能和对应基因表达水平。DNA微阵列的产生很好地解决了这个问题。其中,DNA微阵列产生的基因表达数据是最受研究人员关注的数据。基因表达数据矩阵一般具超高维小样本的特点,这给基因表达数据的分析和处理带来挑战。因此在基因表达数据分析中,选择合适有效的聚类分析和降维方法是至关重要的。本文利用非负矩阵分解相关理论来对癌症样本进行聚类分析和对特征基因进行提取。为了在降维的基础上更好地提高效率,本文提出两种改进的非负矩阵方法,并应用于特征基因提取方面。实验验证了这两种改进方法的可行性及有效性。本文研究的主要工作有:(1)非负矩阵分解在基因表达数据中的聚类分析。首先对非负矩阵分解(NMF)做系统概括;其次利用图正则非负矩阵分解(GNMF)对肿瘤样本进行聚类分析;最后用NMF,SNMF和GNMF这三种方法在肿瘤样本中进行聚类分析。(2)基于L0范数图正则非负矩阵分解算法。本文将GNMF和L0范数约束NMF的原理进行结合,提出了基于L0范数图正则非负矩阵分解算法(GL0NMF),并将其应用到基因表达数据提取中进行研究分析,最后将实验结果导入基因本体论(GO)中分析。通过与PMD,SPCA和GNMF算法对比,实验验证了笔者提出的算法在基因提取方面具有一定的可行性与有效性。(3)监督性稀疏非负矩阵分解算法。为提高NMF在基因表达数据分析中的效率,本文在稀疏控制的非负矩阵分解算法上引入类别信息,提出监督性稀疏非负矩阵分解算法(CISNMF),并将其在基因表达数据提取中进行研究分析,最后利用GO进行定性分析。通过与PMD,SPCA,SNMF和SVM-RFE进行对比,实验结果表明CISNMF算法具有一定的可行性与有效性。本文的创新点主要是提出了两种改进的非负矩阵算法:基于L0范数图正则非负矩阵分解算法(GL0NMF)和监督性稀疏非负矩阵分解算法(CISNMF)。并将这两种算法分别应用到基因表达数据提取中,实验验证了本文提出的算法在基因提取方面具有一定的可行性与有效性。
【学位授予单位】:曲阜师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;O151.21
【参考文献】
中国期刊全文数据库 前2条
1 李乐;章毓晋;;非负矩阵分解算法综述[J];电子学报;2008年04期
2 汪鹏;;非负矩阵分解:数学的奇妙力量[J];计算机教育;2004年10期
,本文编号:1314407
本文链接:https://www.wllwen.com/kejilunwen/yysx/1314407.html