当前位置:主页 > 科技论文 > 基因论文 >

胚胎干细胞核心转录因子靶基因相关计算研究

发布时间:2020-10-20 09:33
   转录因子OCT4,SOX2和NANOG及其靶基因在胚胎干细胞(Embryonic Stem Cells,ESCs)自我更新和分化过程中发挥了十分重要的作用,被称为胚胎干细胞多能性维持核心转录因子(Transcription Factors,TFs)。然而,这些转录因子对靶基因的调控特征及规律尚不清楚,其靶基因的缺失和不足也在一定程度上限制了干细胞自我更新及分化机理的探索。在调控特征方面,这些转录因子之间是否存在交互以及协同调控,仍然不清楚。此外,在胚胎干细胞中特异表达的microRNA(miRNA),也在其多能性维持和分化方面起到了重要的作用。因此,探索转录前后的调控因子如何协同地发挥作用,将有助于我们探究胚胎干细胞多能性维持分子机理。在靶基因的预测、筛选方面,由于社会伦理等方面的原因,在人类中挖掘这些核心转录因子的靶基因仍然存在较多困难,导致目前已知的靶基因数量相比于小鼠缺失较多,影响下游研究进程。为此,本研究利用系统生物学方法,探索胚胎干细胞核心转录因子靶基因的调控特征,随后根据机器学习方法,利用基因组的序列特征及表观调控特征对其进行靶基因预测筛选,提取不同细胞类型的特征性分子网络,并基于此计算细胞间相似性,为下游分子细胞实验验证提供理论支撑。主要研究结果如下:(1)整合BioGRID、HPRD蛋白互作网络和miRNA调控网络miRecords、TarBase,对核心转录因子的靶基因在网络中的性质进行分析。发现在人类和小鼠的蛋白互作网络中,核心转录因子和miRNA共同调控的基因同核心转录因子单独调控的靶基因在网络中心属性方面显著差异,并且核心转录因子和miRNA共同调控的靶基因与其它基因之间的中心性差距更加明显,反映出它们之间存在着协同调控作用,从而增强靶基因的功能,实现它们共同维护ESCs多潜能性的目标。(2)构建非阴性集依赖的核心转录因子靶基因预测模型:标签标记算法(LMA)。利用核心转录因子靶基因的组蛋白修饰和转录因子调控序列特征,在人类全基因组范围内分别预测得到核心转录因子OCT4、SOX2和NANOG的靶基因4796,3166和4384个,并给出可靠性分值,同现有的非阴性集依赖的M-C模型比较发现LMA模型具有较高的稳定性和预测阳性集合准确率,为进一步的科学研究提供可靠的数据基础。对LMA预测的基因集合分析发现其具有很强的模块性和基因功能相似性,进一步验证了核心转录因子预测靶基因的准确性。(3)整合人类所有细胞类型和细胞内分子调控网络,构建了细胞相似性计算和细胞类型预测软件CellSim。Cell Sim可以对人类细胞类型的相似性进行计算,并且提供了原始细胞和靶细胞共享的详细转录因子和基因调控关系和调控可靠性分值,为细胞重编程的转录因子选择提供方便。同时CellSim可以根据特异基因集合,计算与其匹配的组织细胞。为方便用户使用,本软件的计算结果可供下载使用。
【学位单位】:西北农林科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:Q811.4
【部分图文】:

分布图,靶基因,转录因子,小鼠


图 2-1 人类和小鼠核心转录因子靶基因分布图Fig. 2-1 The distribution of the ‘core’TFs’targets in human and mouseA. 人类核心转录因子的靶基因 Human ‘core’pluripotency TFs’targets; B. 小鼠核心转录因子的靶基因 Mouse ‘core’pluripotency TFs’targets.2.1.2 miRNA 靶基因数据收集与整理为了消除数据偏移性,我们采用了两个 miRNA 数据库:miRecords(Xiao F et al.2009 )( mirecords.biolead.org ) 和 TarBase ( Vergoulis et al. 2012 ),(diana.cslab.ece.ntua.gr/DianaToolsNew/index.php)。miRecords包括人类的284个miRNA,1101 个靶基因和 2087 个调控;小鼠的 145 个 miRNA,266 个靶基因和 442 个调控。TarBase 包括人类的 111 个 miRNA,862 个靶基因和 1093 个调控;小鼠的 44 个 miRNA,75 个靶基因和 104 个调控。在 miRecords 中包括实验验证的 miRNA 调控数据和由 11 种miRNA 调控预测软件的结果整合之后的调控数据。而 TarBase 数据库中仅包含实验验证的 miRNA 调控信息,因此 Tarbase 的数据比 miRecords 中要少很多。2.1.3 蛋白互作网络数据收集与整理2.1.3.1 人类蛋白互作网络数据

模型流,靶基因


第二章 胚胎干细胞多能性维持分子层面研究 11行统计计算放入 Label 中,以保证结果的可靠性并且可以对每一个没有标签的基因给出一个可靠性分值来显示一个基因是核心转录因子靶基因的概率。2.1.7 LMA 模型预测效果分析为了评估 LMA 模型的分类效果,我们选择了一个已发表的同样基于支持向量机构建的非阴性集合依赖的预测模型(Mapping-Convergence,M-C)做比较(图 2-3)(XiaoX et al. 2013:425)。M-C 模型第一个循环同 LMA 类似:用 POS 和从 MIX 随机抽取等量的基因条目作为 NEG 进行训练。随后训练结果中预测不是靶基因的基因集合的作为阴性集合,在之后循环中从中抽取 NEG。训练结果中被预测为靶基因的作为 MIX,成为下一次被预测的集合。循环在预测MIX时得到的不是靶基因的集合为空时循环结束。

模型流,基因,靶基因


图 2-3 M-C 模型流程图(Xiao X et al. 2013:426)Fig. 2-3 Workflow of the M-C modelLMA 模型和 M-C 模型的性能,我们用贝叶斯定理计算预测为一个生物学假设:超过 90%的基因不是核心转录因子的靶们假设事件 A1:“基因 A 是靶基因”,概率为 0.1;事件 A2:为 0.9。事件 B:“在 LMA 模型中,基因 A 被预测为靶基,基因 A 被预测为靶基因”。利用贝叶斯模型计算对应概P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2-P( 1| ) = ( 1) ( | 1)∑ ( ) ( | )2 =1(2- ( 1) = 0.9 (2- ( 2) = 0.1 (2- ( | 1) = 10000500( 1)500(1 1)500(2- ( | 2) = 10000500( 1)500(1 1)500(2-
【参考文献】

相关期刊论文 前2条

1 谭文学;王细萍;席金菊;李淑红;;计算机辅助诊断疾病的支持向量机方法研究[J];计算机工程与设计;2011年05期

2 左长清;汪宗桂;吴铁;崔燎;;胚胎干细胞核心转录因子靶基因集蛋白互作网络特征分析[J];中国组织工程研究与临床康复;2011年01期



本文编号:2848515

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2848515.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae8e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com