基于癌症数据的子空间聚类算法及DNA甲基化调控基因表达的泛癌分析
发布时间:2021-10-21 10:26
癌症的恶性转化是一个多步骤的过程,在此过程中积累了大量的分子变化。这些分子的变化与肿瘤微环境相互作用,影响肿瘤内的细胞功能。目前,大量的基因变异的记录,但是,基因的改变不足以解释癌症中普遍存在的基因表达改变和细胞功能改变,有报道称表观遗传改变可以取代基因改变导致肿瘤抑制基因[1]的基因表达改变。表观遗传改变是一种可遗传的性状,通过干扰与DNA序列无关的基因表达而影响表型[2,3]。近几十年来,具有功能影响的表观遗传改变已经成为人们关注的关键目标,值得注意的是,新兴的表观遗传疗法可以逆转癌症的特定表观遗传改变[4-7]。随之而来的挑战是肿瘤内部的异质性加剧了个体间异质性的影响,这进一步模糊了表观遗传调节剂与癌症基因表达之间的潜在功能关系。由此,本文设计了一种方案来促进癌症表观遗传学在肿瘤内外的异质性的研究,阐明了不同的表观遗传机制之间的关系以及他们的基因表达协同作用。本文通过大量分析基因表达数据和DNA甲基化数据,并将它们逐一分解之后,使用本文开发的RMR算法去掉影响最大的离散值,试图拟合出两种相关的调控关系。最终找到在癌...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
回归分析研究内容,预测与潜在类型的回归混合模型;虚线表示潜在的类变量所捕获的效应的异质性,是模型中的预测因子,是结果,是类比-残差,是本文感兴趣的路径
第2章理论基础16即:........(2.11)2.3聚类分析理论基础聚类分析(Clusteranalysis)亦叫做群集分析,这种技术主要是应用在跟统计学相关的一些领域,并且有着相当广泛的应用,这些应用领域包括比如机器学习,数据挖掘,模式识别,图像分析和生物信息等众多的方面。聚类分析,通俗来讲就是把相似的东西放在一起,把不相似的东西区分开,这样,在一个相似的子集中,互相之间会有相似的特性。通常数据聚类被归类为一种非监督学习。下面本文将介绍三种类型的聚类算法,其中K-Means是比较主流的聚类算法,双聚类和子空间聚类则是本文主要的研究探讨对象。2.3.1K-Means(K均值)聚类K-Means算法被广泛使用,并且它是很多入门级数据科学以及研究机器学习课程的内容。而且在代码中理解和实现也十分轻松。图2-2k-means算法原理图示K-Means聚类的基本步骤1首先,我们需要选择一些类/组,然后需要随机初始化这些类各自的中心点。2为了算出要使用的类的数量,最好快速查看一下数据,并尝试识别不同的组。中心点是跟每个数据点的向量长度相同的一个位置。11()(|)(|)()(|)...()(|)iiinnPAPBAPABPAPBAPAPBA=++
第3章DNA甲基化线性调控基因表达与RMR算法22。EM算法通常用于计算密度函数的最大似然估计,贝叶斯信息准则(BIC)可用于估计群的数目,混合回归对异常值非常敏感,如图3-1所示。顶部为有离群值的混合回归结果,底部为无离群值的混合回归结果。左边的两个面板是离群值去除前后的散点图,点的颜色表示使用局部离群因子的数据点成为离群值的可能性。因此,在进行混合回归之前,我们对离群值进行了一步去除。我们最近开发了一种用于稳健混合回归分析的算法(RMR),基本上,我们采用了一种快速似然调整的方法,通过迭代删除那些残差较大且可能是离群值的数据点。绘制COAD数据的散点分布图,可以发现左侧两图表示有无离散值成为一个聚类的可能性,右侧两图表示有无离散值影响线性分布。图3-1COAD数据散点分布图但是我们的主要目标是寻找在DNA甲基化和基因表达之间的调控关系,不仅去掉离散值是我们的目标,能够找到在哪些数据对之间存在着什么样子的相关关系,这些相关关系有着什么特性和关联更是本文研究的重点。因此为了解决这种问题,本文设计了RMR算法(RobustMixtureRegression),以下是该算法的具体流程:2dXi
【参考文献】:
期刊论文
[1]稀疏子空间聚类综述[J]. 王卫卫,李小平,冯象初,王斯琪. 自动化学报. 2015(08)
[2]聚类分析研究中的若干问题[J]. 王骏,王士同,邓赵红. 控制与决策. 2012(03)
[3]DNA甲基转移酶的表达调控及主要生物学功能[J]. 苏玉,王溪,朱卫国. 遗传. 2009(11)
[4]DNA甲基化与植物抗逆性研究进展[J]. 赵云雷,叶武威,王俊娟,樊保香,宋丽艳. 西北植物学报. 2009(07)
[5]DNA甲基化与基因表达调控[J]. 郑志红. 国外医学.遗传学分册. 2002(01)
[6]DNA甲基化对基因表达的影响及其在衰老过程中的表现[J]. 陈培利,童坦君,张宗玉. 国外医学(分子生物学分册). 2000(03)
[7]DNA甲基化、基因表达与肿瘤[J]. 李士谔. 基础医学与临床. 1996(05)
本文编号:3448793
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
回归分析研究内容,预测与潜在类型的回归混合模型;虚线表示潜在的类变量所捕获的效应的异质性,是模型中的预测因子,是结果,是类比-残差,是本文感兴趣的路径
第2章理论基础16即:........(2.11)2.3聚类分析理论基础聚类分析(Clusteranalysis)亦叫做群集分析,这种技术主要是应用在跟统计学相关的一些领域,并且有着相当广泛的应用,这些应用领域包括比如机器学习,数据挖掘,模式识别,图像分析和生物信息等众多的方面。聚类分析,通俗来讲就是把相似的东西放在一起,把不相似的东西区分开,这样,在一个相似的子集中,互相之间会有相似的特性。通常数据聚类被归类为一种非监督学习。下面本文将介绍三种类型的聚类算法,其中K-Means是比较主流的聚类算法,双聚类和子空间聚类则是本文主要的研究探讨对象。2.3.1K-Means(K均值)聚类K-Means算法被广泛使用,并且它是很多入门级数据科学以及研究机器学习课程的内容。而且在代码中理解和实现也十分轻松。图2-2k-means算法原理图示K-Means聚类的基本步骤1首先,我们需要选择一些类/组,然后需要随机初始化这些类各自的中心点。2为了算出要使用的类的数量,最好快速查看一下数据,并尝试识别不同的组。中心点是跟每个数据点的向量长度相同的一个位置。11()(|)(|)()(|)...()(|)iiinnPAPBAPABPAPBAPAPBA=++
第3章DNA甲基化线性调控基因表达与RMR算法22。EM算法通常用于计算密度函数的最大似然估计,贝叶斯信息准则(BIC)可用于估计群的数目,混合回归对异常值非常敏感,如图3-1所示。顶部为有离群值的混合回归结果,底部为无离群值的混合回归结果。左边的两个面板是离群值去除前后的散点图,点的颜色表示使用局部离群因子的数据点成为离群值的可能性。因此,在进行混合回归之前,我们对离群值进行了一步去除。我们最近开发了一种用于稳健混合回归分析的算法(RMR),基本上,我们采用了一种快速似然调整的方法,通过迭代删除那些残差较大且可能是离群值的数据点。绘制COAD数据的散点分布图,可以发现左侧两图表示有无离散值成为一个聚类的可能性,右侧两图表示有无离散值影响线性分布。图3-1COAD数据散点分布图但是我们的主要目标是寻找在DNA甲基化和基因表达之间的调控关系,不仅去掉离散值是我们的目标,能够找到在哪些数据对之间存在着什么样子的相关关系,这些相关关系有着什么特性和关联更是本文研究的重点。因此为了解决这种问题,本文设计了RMR算法(RobustMixtureRegression),以下是该算法的具体流程:2dXi
【参考文献】:
期刊论文
[1]稀疏子空间聚类综述[J]. 王卫卫,李小平,冯象初,王斯琪. 自动化学报. 2015(08)
[2]聚类分析研究中的若干问题[J]. 王骏,王士同,邓赵红. 控制与决策. 2012(03)
[3]DNA甲基转移酶的表达调控及主要生物学功能[J]. 苏玉,王溪,朱卫国. 遗传. 2009(11)
[4]DNA甲基化与植物抗逆性研究进展[J]. 赵云雷,叶武威,王俊娟,樊保香,宋丽艳. 西北植物学报. 2009(07)
[5]DNA甲基化与基因表达调控[J]. 郑志红. 国外医学.遗传学分册. 2002(01)
[6]DNA甲基化对基因表达的影响及其在衰老过程中的表现[J]. 陈培利,童坦君,张宗玉. 国外医学(分子生物学分册). 2000(03)
[7]DNA甲基化、基因表达与肿瘤[J]. 李士谔. 基础医学与临床. 1996(05)
本文编号:3448793
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3448793.html