癌症共调控网络中功能模块挖掘算法研究
发布时间:2020-06-18 11:18
【摘要】:随着DNA微阵列技术、高通量测序技术的不断延伸和迅猛发展,产生了许多的基因表达谱数据、分子相互作用数据、基因组数据。这些数据在研究基因突变、基因识别、基因分型和癌症分型诊断等方面有着重要的实用价值。同时,由这些数据组成的基因调控网络也为从网络层次上探索生物基因关系提供了支撑条件,对癌症共调控网络的研究也有助于理解癌细胞组织内部致癌基因的产生过程和基因分子之间的调控关系。本文针对癌症共调控网络,基于miRNA/TF/mRNA表达谱数据集,提出了两种共调控功能模块识别算法。首先,传统的生物功能模块识别算法忽略了关键调控因子可能参与到多种生理过程中所形成的重叠性问题,本文提出了一种基于重叠谱聚类的共调控模块挖掘算法OSC(Overlapping Spetral Clustering)。该算法首先在使用皮尔逊相关系数分析的基础之上,应用经验贝叶斯理论构造准确度较高的共调控相互作用网络。其次使用特征间隙方法自动确定识别出的最佳聚类数目,避免人工设定阈值的弊端,保证整个算法框架的自适应性。然后使用凝聚式分层谱聚类方法得到非重叠的功能模块。最后提出目标重叠度函数对跨越不同模块的边进行重叠判断,根据最大内部聚集、最小外部连接准则挖掘出重叠性的共调控功能模块。实验结果表明,相比于与NJW、SNMNMF算法,OSC能够发现更多miRNA/TF/mRNA之间的协同调控作用,并且挖掘到的共调控功能模块具备更加显著的功能富集意义。其次,随着基因表达谱数据规模逐渐增加,普通模块识别算法在运行过程中存在搜索空间大、运行时间长的问题,本文提出了一种基于爆炸搜索策略的模块识别算法RMCL-ESA(Regularized Markov ClusterExplosion Search Algorithm)。该算法首先采用改进马尔科夫过程对基因表达谱数据集进行预处理,通过扩展、膨胀、修剪三个子过程对网络中的节点进行过滤。该过程能够使网络中强连接更强,弱连接更弱,并删除冗余基因,使得后续的运算处理过程更加迅速,节约存储空间。然后基于miRNA和转录因子对靶基因的特殊调控模式,采用两阶段的爆炸搜索方式进行模块识别。在第一阶段,在全局搜索空间内寻找能够作为烟花弹的节点中心簇;在第二阶段,向中心簇的邻域靶基因贪婪搜索,寻找满足适应度函数的功能模块。经过实验,相比于与NJW、SNMNMF算法,RMCL-ESA算法得到的功能模块包含更多显著生物功能和调控通路。同时,通过对GOES和KEGGES富集分值进行累计经验分布分析、结合患者临床样本对模块进行生存分析,发现RMCL-ESA算法能够挖掘到大量包含较高富集程度的共调控模块,且在OVCA数据集中能够显著的将病患区域分开,具备显著生物意义。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
【图文】:
介绍了共调控网络的拓扑描述,然后详细分析了本文针法理论,最后概述了功能模块的几种经典评价指标。网络络包含三种类型的节点:miRNA、TF、gene,而且节点不同,调节形式不同,存在促 进调控(up-regula)两种类型。所以用图论知识形式表示就是一个有向加(V, E, W),其中 V 为网络中的节点集合,E 为边集合,权值为正表示促进调控,权值为负表示抑制调控。图 过程中以 miR-9-5p 为中心的共调控功能网络示意图[35]络中包含菱形的 miRNA,三角形状的 TF,圆形和长方主要靶点,圆形基因为次要靶点。不用颜色的边表示了黄色边表示蛋白质与 DNA 的相互作用,蓝色边表示 m同时可以看出,调控因子 miRNA 和 TF 可以调控一个或
硕士学位论文的线图上,对节点进行社区发现,达到边社区发现的目的,完成重叠社区发现工作[63]。此外,Deodhar 等人提出了一种从基因表达谱数据中识别重叠聚类的算法[64];G.Pio 等人在 2015 年提出了一种共聚类算法,能够识别出 miRNAs 和 mRNAs 的重叠层次组织结构的聚类[65],在 2018 年又改进提出了能够识别出异构重叠层次化的通用聚类算法[66]。3.2 基于重叠谱聚类的功能模块挖掘算法OSC 算法利用传统的谱聚类算法在共调控网络上实现功能模块的挖掘。OSC 算法的流程示意图如下图 3.1 所示。
本文编号:2719154
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13
【图文】:
介绍了共调控网络的拓扑描述,然后详细分析了本文针法理论,最后概述了功能模块的几种经典评价指标。网络络包含三种类型的节点:miRNA、TF、gene,而且节点不同,调节形式不同,存在促 进调控(up-regula)两种类型。所以用图论知识形式表示就是一个有向加(V, E, W),其中 V 为网络中的节点集合,E 为边集合,权值为正表示促进调控,权值为负表示抑制调控。图 过程中以 miR-9-5p 为中心的共调控功能网络示意图[35]络中包含菱形的 miRNA,三角形状的 TF,圆形和长方主要靶点,圆形基因为次要靶点。不用颜色的边表示了黄色边表示蛋白质与 DNA 的相互作用,蓝色边表示 m同时可以看出,调控因子 miRNA 和 TF 可以调控一个或
硕士学位论文的线图上,对节点进行社区发现,达到边社区发现的目的,完成重叠社区发现工作[63]。此外,Deodhar 等人提出了一种从基因表达谱数据中识别重叠聚类的算法[64];G.Pio 等人在 2015 年提出了一种共聚类算法,能够识别出 miRNAs 和 mRNAs 的重叠层次组织结构的聚类[65],在 2018 年又改进提出了能够识别出异构重叠层次化的通用聚类算法[66]。3.2 基于重叠谱聚类的功能模块挖掘算法OSC 算法利用传统的谱聚类算法在共调控网络上实现功能模块的挖掘。OSC 算法的流程示意图如下图 3.1 所示。
【参考文献】
相关期刊论文 前6条
1 胡庆生;雷秀娟;;PPI网络的改进马尔科夫聚类算法[J];计算机科学;2015年07期
2 谭营;郑少秋;;烟花算法研究进展[J];智能系统学报;2014年05期
3 曹炬;侯学卿;;具有邻域搜索机制的爆炸搜索算法[J];计算机工程;2011年18期
4 孔万增;孙志海;杨灿;戴国骏;孙昌思核;;基于本征间隙与正交特征向量的自动谱聚类[J];电子学报;2010年08期
5 魏任雄;蔡林;谭金海;牛光峰;胡戈亮;王兵兵;;骨肉瘤miRNA基因的差异性表达[J];中华实验外科杂志;2009年05期
6 李梢;张学工;季梁;李衍达;;复杂性疾病生物信息学研究的策略与方法[J];世界华人消化杂志;2003年10期
相关硕士学位论文 前1条
1 向根;基于多源数据的共调控网络功能模块识别算法研究[D];湖南大学;2017年
本文编号:2719154
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2719154.html