基于机器学习的肿瘤基因表达谱数据分析方法研究
发布时间:2020-10-12 15:44
近年来,国内外研究人员将机器学习理论和方法引入到生物信息学领域,通过对基因表达谱数据的综合分析来发现蕴含在生物学中的重要信息。本文针对肿瘤基因表达谱数据,以机器学习为理论基础,通过对特征基因选择、肿瘤分类和肿瘤聚类等问题展开研究与探索,提出了一系列基于机器学习的肿瘤基因表达谱数据分析方法。主要研究内容如下:1.基于深度学习及矩阵分解的肿瘤特征基因选择。首先,针对深度学习模型无法很好地进行肿瘤特征基因选择的问题,提出一种基于样本学习及深度稀疏滤波的肿瘤特征基因选择方法;其次,基于最优均值算法和分块优化理论,提出一种基于最优均值的分块鲁棒特征基因选择方法,并对TCGA中的融合数据进行分析;最后,利用散度矩阵将基因表达谱数据中已知类别标签引入无监督算法中,提出一种监督型惩罚矩阵分解算法,从而对特征基因进行选择。2.基于样本扩充及深度学习的肿瘤样本分类。针对深度学习模型在进行肿瘤基因表达谱数据分类时训练样本严重不足的问题,提出一种基于降噪自动编码器的样本扩充方法,以获得大量的辅助样本。进一步,针对肿瘤样本分类问题,将所提样本扩充方法分别与两种深度学习模型相结合,设计了基于样本扩充的栈式自动编码器和基于样本扩充的1维卷积神经网络。3.基于低秩子空间分割的肿瘤样本聚类。传统子空间分割方法依赖谱聚类进行肿瘤基因表达数据聚类,针对此问题,利用离散约束来直接学习子空间的样本标签,提出了两种基于离散约束的低秩子空间肿瘤样本聚类方法。首先,考虑肿瘤基因表达谱数据内部的流形结构,提出一种基于离散约束及超图正则化的低秩子空间聚类算法;其次,为了消除肿瘤数据中极端离群值对聚类结果的影响,使用封顶范数来提高算法的鲁棒性,提出基于离散约束及封顶范数的鲁棒低秩子空间聚类算法。4.基于双超图正则化主成分分析的肿瘤双聚类。同时考虑肿瘤数据中的样本流形结构和基因流形结构,分别构建样本超图和基因超图来获取数据的局部几何信息,并将双超图作为主成分分析的正则项进行样本聚类和基因聚类,提出基于双超图正则化主成分分析的双聚类算法。
【学位单位】:中国矿业大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:R730;TP181
【部分图文】:
图 1-1 人类 DNA 双螺旋结构Figure 1-1 Human DNA double helix就人类而言,基因携带遗传信息来表达头发、眼睛的颜色以及许多其他特征。基因还包含身体细胞何时生长、分裂甚至何时死亡的信息。尽管个体体内的每一个细胞都储存着完整的基因,但一个基因的活性却因细胞而异。一个细胞只会开启细胞功能所必需的基因,当一个基因被启用时,称为基因表达。基因表达是通过创建 mRNA 来使用基因中的编码指导蛋白质合成,这个过程是分子生物学中心法则的一部分。如图 1-2 所示,DNA 利用转录和翻译使产生蛋白质。
35(c)DLBCL 数据集 种 DNA 微阵列数据集上,5 种方法选择的特征基gram of genes selected by five methods on three DN特征基因定义为仅通过一种方法选择而被其 SLDSF 选择的“独特的”特征基因,以确择的特征基因的维恩图如图 3-3(a)所示。从共同选择的特征基因有 9 个,SLDSF 算法”特征基因(多达 81 个),这解释了表 3-2 能的原因,并且表明这 81 个“独特的”特征现有文献研究了 SLDSF 选择的“独特的”SF 选择的前 5 个“独特的”特征基因,即 GA
博士学位论文A 具有最低的 P-value。表 3-5 3 种方法在 ESCA 数据集上的 GO 实验结果Table 3-5 GO results of three methods on ESCA datasetIDSLDSF RPCA PMDP-Value P-Value P-ValueGO:0042060 7.30E-16 8.20E-13 7.56E-12GO:0009611 1.38E-12 4.01E-10 4.01E-10GO:0022610 2.01E-12 5.40E-14 3.37E-13GO:0006955 3.37E-12 9.95E-11 9.95E-11GO:0007155 9.34E-12 2.71E-13 1.63E-12GO:0043588 1.06E-11 1.06E-11 NoneGO:0007010 8.65E-11 1.39E-08 8.65E-11GO:0050776 9.56E-11 6.12E-10 3.70E-09GO:0034109 1.92E-10 1.59E-08 1.92E-10GO:0098609 5.20E-10 3.04E-09 3.04E-09
【参考文献】
本文编号:2837974
【学位单位】:中国矿业大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:R730;TP181
【部分图文】:
图 1-1 人类 DNA 双螺旋结构Figure 1-1 Human DNA double helix就人类而言,基因携带遗传信息来表达头发、眼睛的颜色以及许多其他特征。基因还包含身体细胞何时生长、分裂甚至何时死亡的信息。尽管个体体内的每一个细胞都储存着完整的基因,但一个基因的活性却因细胞而异。一个细胞只会开启细胞功能所必需的基因,当一个基因被启用时,称为基因表达。基因表达是通过创建 mRNA 来使用基因中的编码指导蛋白质合成,这个过程是分子生物学中心法则的一部分。如图 1-2 所示,DNA 利用转录和翻译使产生蛋白质。
35(c)DLBCL 数据集 种 DNA 微阵列数据集上,5 种方法选择的特征基gram of genes selected by five methods on three DN特征基因定义为仅通过一种方法选择而被其 SLDSF 选择的“独特的”特征基因,以确择的特征基因的维恩图如图 3-3(a)所示。从共同选择的特征基因有 9 个,SLDSF 算法”特征基因(多达 81 个),这解释了表 3-2 能的原因,并且表明这 81 个“独特的”特征现有文献研究了 SLDSF 选择的“独特的”SF 选择的前 5 个“独特的”特征基因,即 GA
博士学位论文A 具有最低的 P-value。表 3-5 3 种方法在 ESCA 数据集上的 GO 实验结果Table 3-5 GO results of three methods on ESCA datasetIDSLDSF RPCA PMDP-Value P-Value P-ValueGO:0042060 7.30E-16 8.20E-13 7.56E-12GO:0009611 1.38E-12 4.01E-10 4.01E-10GO:0022610 2.01E-12 5.40E-14 3.37E-13GO:0006955 3.37E-12 9.95E-11 9.95E-11GO:0007155 9.34E-12 2.71E-13 1.63E-12GO:0043588 1.06E-11 1.06E-11 NoneGO:0007010 8.65E-11 1.39E-08 8.65E-11GO:0050776 9.56E-11 6.12E-10 3.70E-09GO:0034109 1.92E-10 1.59E-08 1.92E-10GO:0098609 5.20E-10 3.04E-09 3.04E-09
【参考文献】
相关期刊论文 前3条
1 简彩仁;陈晓云;;基于局部保持投影和稀疏表示的无监督特征选择方法[J];模式识别与人工智能;2015年03期
2 陆慧娟;安春霖;马小平;郑恩辉;杨小兵;;基于输出不一致测度的极限学习机集成的基因表达数据分类[J];计算机学报;2013年02期
3 闫友彪,陈元琰;机器学习的主要策略综述[J];计算机应用研究;2004年07期
相关博士学位论文 前2条
1 殷路;基因表达数据的双聚类分析与研究[D];电子科技大学;2017年
2 张乐平;干细胞表达谱的生物信息学与系统生物学分析[D];复旦大学;2011年
相关硕士学位论文 前1条
1 陈科;基于基因表达谱数据分析来挖掘接受放疗和放化疗的子宫颈癌样本中的关键基因[D];浙江大学;2017年
本文编号:2837974
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2837974.html