生物网络中的模体发现算法研究
发布时间:2020-05-12 09:40
【摘要】:大量的高通量实验产生了PB级的生物组学数据,这些组学数据包含了海量的生物分子作用信息。如何从这些组学数据中挖掘出有价值的信息是计算生物学的一个重大挑战。为了研究生物分子间的调控机制,常用的研究方法是将生物分子间的作用关系抽象为一个网络图,然后通过基于图论的数据挖掘方法,从生物分子作用网络中挖掘出生物分子间的调控机制。模体结构是一种被认为包含潜在生物分子调控机制的子图结构,在共调控网络中挖掘共调控网络模体,对研究共调控网络中的生物分子调控机制有重大的意义。相比于蛋白质作用网络、基因调控网络等单一分子类型的调控网络,共调控网络规模更大、节点类型更多。现有的模体发现算法难以高效的处理该类型网络图,所以需要设计一种更加高效的共调控网络模体发现算法。本文的主要研究工作如下:1)为了提升共调控网络模体发现算法的效率,本文将G-trie结构应用于共调控网络模体发现算法,把多种共调控网络模体类型存储于一棵前缀树结构中,通过重用查找过程,提升了子图统计的效率。并通过多线程技术,实现了该算法的并行,进一步提升了共调控网络模体发现算法的效率。为了发现更大规模的共调控网络模体类型,本文设计了一种采样生成候选子图的方法,通过该方法本文最多能发现8个节点的共调控网络模体类型。另外,本文根据共调控网络模体结构在共调控网络中的实例,发现了共调控网络模体的团簇性特征。2)通过采样生成候选子图的方法虽然能查找较大规模的模体类型,但难以查找共调控网络中全部的模体类型。查找共调控网络中全部的模体类型是一个NP难问题,计算量会随着模体规模的增加呈指数增长。为此,本文设计一个基于MapReduce计算模型的共调控网络模体发现算法。该算法解决了以往模体发现算法中迭代依赖问题,以及难以通过MapReduce计算模型精确统计网络图中每个子图出现频率的问题,并且通过多线程并行的方法解决了MapReduce计算模型CPU利用率不足的问题。基于MapReduce计算模型的共调控网络模体发现算法实现了对计算机资源的融合与高效利用,并极大限度的缩短了在共调控网络中查找全部模体类型的时间。
【图文】:
图2.1共调控网络图G(V,£)示例逡逑G(K五)被定义为包含miRNA,TF,靶基因以及它们之间的调控关系组逡逑成的共调控网络,,如图2.1所示。本文定义V邋=邋{Vw,V,,邋%}作为网络中的节逡逑点集,其中%以及%分别代表miRNA,邋TF以及靶基因集,r(w)表示节逡逑点w的类型。这里本文采用整数来表示miRNA,TF以及靶基因等节点类逡逑型。£邋£邋(V邋x邋V)作为边集。每一条有向边e(?,v)邋£邋£表示两生物分子之间逡逑13逡逑
噪声中的稳定性。从而减少不同细胞之间蛋白质水平的变化。逡逑2)正反馈自调控回路(PAR)逡逑正向反馈调控通常发生在转录因子需要提供自身生产速率时。与NAR模体类逡逑型的作用相反,PAR模体类型减缓了响应时间,该模体类型可能导致细胞中的蛋逡逑白质水平呈双峰分布。逡逑3)前馈环路(FFL)逡逑FFL模体类型在基因系统和生物体中比较常见,该模体类型由三个调控因子逡逑以及三个调控作用组成,靶基因C由两个TF(A和B)调控,另外TFB也由TFA调逡逑控。由于每种调控作用可能是可能是抑制作用,也可能是促进作用。所以可能逡逑有8种类型的FFL模体类型。其中相干类型lFFL(Cl-FFL)(其中所有的调控作用都逡逑为促进)和非相干类型1FFL(11-FFL)(I1-FFL)(A激活C并且还激活B抑制C)被发现在逡逑大肠杆菌和酵母的转录网络中比其它6种类型出现的更加频繁。逡逑4)双扇网络模体(Bi-fan)逡逑一
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP301.6;O157.5
本文编号:2660020
【图文】:
图2.1共调控网络图G(V,£)示例逡逑G(K五)被定义为包含miRNA,TF,靶基因以及它们之间的调控关系组逡逑成的共调控网络,,如图2.1所示。本文定义V邋=邋{Vw,V,,邋%}作为网络中的节逡逑点集,其中%以及%分别代表miRNA,邋TF以及靶基因集,r(w)表示节逡逑点w的类型。这里本文采用整数来表示miRNA,TF以及靶基因等节点类逡逑型。£邋£邋(V邋x邋V)作为边集。每一条有向边e(?,v)邋£邋£表示两生物分子之间逡逑13逡逑
噪声中的稳定性。从而减少不同细胞之间蛋白质水平的变化。逡逑2)正反馈自调控回路(PAR)逡逑正向反馈调控通常发生在转录因子需要提供自身生产速率时。与NAR模体类逡逑型的作用相反,PAR模体类型减缓了响应时间,该模体类型可能导致细胞中的蛋逡逑白质水平呈双峰分布。逡逑3)前馈环路(FFL)逡逑FFL模体类型在基因系统和生物体中比较常见,该模体类型由三个调控因子逡逑以及三个调控作用组成,靶基因C由两个TF(A和B)调控,另外TFB也由TFA调逡逑控。由于每种调控作用可能是可能是抑制作用,也可能是促进作用。所以可能逡逑有8种类型的FFL模体类型。其中相干类型lFFL(Cl-FFL)(其中所有的调控作用都逡逑为促进)和非相干类型1FFL(11-FFL)(I1-FFL)(A激活C并且还激活B抑制C)被发现在逡逑大肠杆菌和酵母的转录网络中比其它6种类型出现的更加频繁。逡逑4)双扇网络模体(Bi-fan)逡逑一
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP301.6;O157.5
【参考文献】
相关期刊论文 前2条
1 周琳;孔雷;赵方庆;;生物大数据可视化的现状及挑战[J];科学通报;2015年Z1期
2 覃桂敏;高琳;呼加璐;;生物网络模体发现算法研究综述[J];电子学报;2009年10期
相关博士学位论文 前1条
1 李光辉;蛋白质网络模体发现算法及其在关键蛋白质识别中的应用[D];湖南大学;2015年
本文编号:2660020
本文链接:https://www.wllwen.com/kejilunwen/yysx/2660020.html