基于整合组学策略的人类基因组功能元件的识别与注释

发布时间:2017-07-26 21:29

  本文关键词:基于整合组学策略的人类基因组功能元件的识别与注释


  更多相关文章: 隔离子 DNA高敏位点 iFORM 聚集区间 转录调控网络


【摘要】:随着2003年人类基因组计划的完成,我们获得了人类基因组序列这本天书,但依然有许多问题没有解决。一个重要的科学问题困扰着大家:机体中复杂的调控网络是如何编码在一维的基因组上的?识别基因组上所有的功能元件是理解转录调控背后的分子机制的必要前提,因而解决这个问题的关键是精确识别与注释人类基因组上的重要功能元件。然而传统的实验手段如识别特殊的转录因子结合位置(ChIP,染色质免疫沉淀)在大量功能元件的识别与注释上有诸多限制,如仅适用于与已知的反式作用因子、依赖于分离相应转录因子的高质量ChIP级的抗体、价格昂贵等。近几年国际上开展的大型科学计划,包括ENCODE计划、modENCODE计划、表观路线图计划等,提供了近700T功能元件识别与注释相关的各组学公共数据;加上新一代测序的蓬勃发展,结合生物信息学分析技术的进步,为全面解析人类基因组中的功能元件提供了可能。基于这些大数据资源,作者展开了人类基因组功能元件的识别和注释研究。首先,研究从单个有代表性的功能元件入手。染色质上的隔离子是调控基因表达水平的DNA功能元件,他有两种方式来行使功能:一种是通过维持异染色质边界来阻止基因沉默,另一种是阻止增强子和启动子的作用关系来阻止基因转录的激活。CCCTC结合因子(CTCF)是一个广泛表达的11-锌指DNA结合蛋白,是脊椎动物中唯一的一个与隔离子相关的蛋白。虽然CTCF与众多调控功能相关,但他只在人类基因组少量细胞系中被研究,因此,并不确定所识别的细胞特异性差异的CTCF结合位点是否在功能上有显著差异。我们识别了ENCODE计划产生的人类基因组38个细胞系的CTCF结合位点,并将他们分为细胞特异的结合位点和普遍存在的结合位点。这些细胞特异的和普遍存在的CTCF结合位点展示了独特的多样转录功能和独具特色的染色质特征。另外,我们确认了CTCF行使着隔离子的功能,并且首次发现CTCF参与DNA的复制过程。这些结果表明我们对CTCF全面系统的理解迈出了重要的一步。接下来,从整体上研究基因组上的开放区域DHSs。DHSs是基因组上功能元件的候选区域,全基因组DHSs图谱为转录调控区域的研究提供了重要线索。我们系统识别和注释了人类基因组29个不同细胞系中的DHSs,试图找到DHSs与组蛋白修饰、基因表达之间的关系。通过研究,我们发现了不同细胞系中dhss、基因表达、活性和抑制组蛋白修饰数量之间的特殊关联。这些关联揭示了染色质域四个截然不同的结构状态:抑制态(repressive)、活性态(active)、原始态(primed)、二价态(bivalent),不同的状态对应不一样的功能。更进一步,通过这些数据的整合分析,我们找到了ccctc-结合因子ctcf。我们的研究结果揭示了包括dna酶i超敏位点和组蛋白修饰的复杂调控过程,并且表明这些动态元素可能负责维持染色体的结构和染色体的完整性。同时,在该研究中,我们基于不同技术平台的多组学大数据,运用整合组学方法,提出了对转录调控机理更有意义的见解,这是是多平台多组学大数据整合的一个值得参考的实例。第三,扩展到大量功能元件的识别。要准确识别大量功能元件、获取众多转录因子结合位点信息十分困难,传统的实验手段几乎不可能完成所有转录因子结合位点的定位。幸运的是,转录因子在基因组上的结合位点具有一定的特异性,可以根据这一特异性来识别转录因子结合位点。transfac、jaspar、trrd、tred、pazar等转录因子数据库提供了大量转录因子的模体信息,基于这些资源,作者开发了一套模式序列识别算法iform,在基因组上的开放区域(dhss)识别转录因子结合位点。与国际上主流的模式序列算法fimo、consensus、homer、rsat、storm相比,iform不但能识别其他算法找到的可靠区间,也能识别其他算法无法找到的可靠区间,并且从roc曲线中也能看出,iform明显优于其他算法。iform算法为全面解析人类基因组上的功能元件奠定了坚实的基础。第四,多细胞系大量功能元件的整合分析。dna酶i超敏感位点定义了基因组中可访问的染色质全景图,使得多物种基因组中顺式调控元件的识别有了革命性的进展。我们基于iform方法识别的人类基因组133个细胞系和组织的转录因子结合位点,运用高斯核函数方法,首次得到了人类基因组上转录因子结合位点聚集区间(tfbs-clusteredregions,简称聚集区间)全面图谱。我们总共找到了近160万个聚集区间,涵盖了基因组上27.7%的碱基,并且依据每个聚集区间中转录因子结合的数量赋予其转录因子复杂度。转录因子复杂度与聚集区间的基因组位置、细胞特异性、进化保守性、序列特征以及功能作用均显著相关。采用encode数据对聚集区间整合分析发现:转录因子结合、转录活性、组蛋白修饰、dna甲基化以及染色质结构均随着转录因子复杂度的改变而有规律的变化。更进一步,我们发现,对不同终端细胞系的聚集区间进行聚类,能够重现细胞系的谱系进化规律。基于我们的研究结果,提出了基因组上的不同复杂度的转录调控模型。最后是转录因子调控网路研究。转录因子在基因上游调控基因表达,基因表达产物为转录因子,又可以调控基因,这就构成了转录因子调控网络。利用iFORM算法,我们得到了133个细胞系中542种转录因子的结合位点信息,加上GENECODE数据提供了542个转录因子对应的基因的位置信息,作者分别为133个细胞系分别构建了转录调控网络。进一步,对不同细胞系之间网络进行比较发现,不同细胞系的调控网络都保持着一致的网络结构模式。并且找出了各谱系代表性的网络结构实例,其中,POU5F1、SOX2、NANOG构成的FFL回路是胚胎干细胞中所特有的网络结构实例。
【关键词】:隔离子 DNA高敏位点 iFORM 聚集区间 转录调控网络
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q78;Q811.4
【目录】:
  • 缩略词表7-8
  • 中文摘要8-11
  • Abstract11-14
  • 第一章 前言14-20
  • 1.1 论文研究背景14-16
  • 1.1.1 研究意义14-15
  • 1.1.2 国内外研究现状15-16
  • 1.1.3 课题的独创性16
  • 1.2 技术路线16-17
  • 1.3 论文组织结构17-20
  • 第二章 CTCF的识别与注释20-41
  • 2.1 研究背景20-21
  • 2.2 全基因组识别CTCF结合位点21-26
  • 2.2.1 CTCF结合位点的分类21-22
  • 2.2.2 CTCF结合位点的饱和性分析22-23
  • 2.2.3 CTCF结合位点与基因密度23
  • 2.2.4 CTCF结合位点的位置分布23-24
  • 2.2.5 CTCF结合位点呈簇出现24-26
  • 2.3 CTCF结合位点的进化和功能26-29
  • 2.3.1 CTCF结合位点的保守性分析26
  • 2.3.2 CTCF结合位点GC含量分析26-27
  • 2.3.3 CTCF结合位点与基因表达的相关性27
  • 2.3.4 CTCF结合位点的GO功能富集分析27-28
  • 2.3.5 CTCF结合位点模体分析28-29
  • 2.4 CTCF结合位点的染色质特征29-33
  • 2.4.1 CTCF结合位点周围核小体信号29-30
  • 2.4.2 CTCF结合位点周围的染色质开放区30-31
  • 2.4.3 CTCF结合位点周围的组蛋白修饰情况31
  • 2.4.4 CTCF结合位点DNA甲基化水平31-32
  • 2.4.5 共定位分析32-33
  • 2.5 CTCF分割染色质域的功能33-35
  • 2.5.1 识别染色质域33
  • 2.5.2 CTCF在染色质边界富集33-34
  • 2.5.3 边界CTCF是细胞系特异的34-35
  • 2.5.4 染色质域在CTCF环中间35
  • 2.6 CTCF在DNA复制中行使功能35-37
  • 2.6.1 识别复制时间域35-36
  • 2.6.2 CTCF在复制域中富集情况36
  • 2.6.3 CTCF与复制时间的相关性36-37
  • 2.6.4 复制域中的CTCF结合位点具有细胞特异性37
  • 2.7 总结与讨论37-41
  • 2.7.1 CTCF结合位点独特的分布在人类基因组上37-38
  • 2.7.2 CTCF是一个多能的转录调控因子38-39
  • 2.7.3 染色质特性决定了基因的细胞特异性表达39
  • 2.7.4 CTCF构建染色质结构39-40
  • 2.7.5 CTCF参与DNA复制过程40-41
  • 第三章 DHSs的识别与注释41-60
  • 3.1 研究背景41-42
  • 3.2 DHSs的全基因组性质42-45
  • 3.2.1 DHSs的分类42-43
  • 3.2.2 DHSs的基因组覆盖率43-44
  • 3.2.3 DHSs的基因组定位分析44-45
  • 3.2.4 DHSs与基因密度、TFBS数量的关联45
  • 3.3 DHSs与组蛋白修饰的全基因组关联分析45-50
  • 3.3.1 DHSs周围组蛋白修饰情况45-48
  • 3.3.2 DHSs与组蛋白修饰的相关性48-50
  • 3.4 DHSs与基因表达的全基因组关联分析50-52
  • 3.4.1 DHSs靠近TSS区50-51
  • 3.4.2 DHSs与基因表达51-52
  • 3.5 染色质域的四种不同模式52-55
  • 3.5.1 DHSs与组蛋白修饰和基因表达均相关52-54
  • 3.5.2 染色质结构的四种不同功能54-55
  • 3.6 基于测序数据整合的TFBS识别55-57
  • 3.7 总结与讨论57-60
  • 3.7.1 DHSs的全基因组性质57-58
  • 3.7.2 DHSs、组蛋白修饰、基因表达之间的相关性58-59
  • 3.7.3 通过数据整合方法来识别功能元件59-60
  • 第四章 模式序列识别算法60-68
  • 4.1 研究背景60-62
  • 4.1.1 什么是模式序列?60
  • 4.1.2 模式序列识别主流算法60-62
  • 4.2 i FORM方法62-64
  • 4.2.1 i FORM算法流程63
  • 4.2.2 Pvalue合并方法63-64
  • 4.2.3 算法的运行环境64
  • 4.3 算法评估64-67
  • 4.3.1 能找到新的可靠结合位点64-65
  • 4.3.2 ROC曲线比较65-67
  • 4.4 总结与讨论67-68
  • 第五章 聚集区间的整合分析68-89
  • 5.1 研究背景68-69
  • 5.2 聚集区间的识别69-73
  • 5.2.1 是否存在聚集区间?69-70
  • 5.2.2 如何识别聚集区间?70-71
  • 5.2.3 人类基因组上有多少聚集区间?71-73
  • 5.3 聚集区间的基本特征73-76
  • 5.3.1 聚集区间的分类73
  • 5.3.2 不同类别聚集区间差异显著73-76
  • 5.4 聚集区间的表观特征76-82
  • 5.4.1 聚集区间的转录因子特性76-77
  • 5.4.2 RNA聚合酶II在聚集区间的性质77
  • 5.4.3 聚集区间的组蛋白结合特性77-78
  • 5.4.4 聚集区间的甲基化特性78-79
  • 5.4.5 聚集区间附近的染色质结构79-82
  • 5.5 聚集区间应用实例82-86
  • 5.5.1 聚集区间展现谱系进化规律82-84
  • 5.5.2 聚类稳健性分析84
  • 5.5.3 聚类敏感性分析84-85
  • 5.5.4 谱系间进化保守性85-86
  • 5.6 总结与讨论86-89
  • 第六章 转录因子调控网络89-95
  • 6.1 识别转录因子结合位点89-91
  • 6.1.1 TFBS全基因组分布情况89
  • 6.1.2 TFBS保守性分析89-90
  • 6.1.3 TFBS与染色质状态90-91
  • 6.2 网络构建方法91
  • 6.3 网络结构分析91-94
  • 6.3.1 网络结构模式91-92
  • 6.3.2 网络结构与进化92-93
  • 6.3.3 谱系特异的网络结构模式实例93-94
  • 6.4 总结与讨论94-95
  • 第七章 全文总结与展望95-97
  • 7.1 全文总结95-96
  • 7.2 研究课题展望96-97
  • 参考文献97-112
  • 综述112-119
  • 参考文献115-119
  • 个人简历119-120
  • 致谢120

【相似文献】

中国期刊全文数据库 前10条

1 江世亮;王勇;;“生命天书”的破译会带来什么[J];学问;2000年08期

2 Declan Butler,陶家祥;人类基因组阐释任重道远[J];世界科学;2000年09期

3 张祥平,李瑞林;学者思考:人类基因组草图,“八”字的一撇?[J];森林与人类;2000年08期

4 ;快乐与忧虑——访中国人类基因组中心主任杨焕明[J];中国科技月报;2000年11期

5 刘清国;“人类基因组”将彻底改变我们的生活[J];医药世界;2000年08期

6 晓容;闻玄;;里程碑式的创举[J];环境;2000年10期

7 张小军;颜亮;毛磊;;解天书媲美登月 双刃剑谨防滥用——写在人类基因组草图完成之时[J];民营科技;2000年04期

8 ;人类基因组“中国卷”大事记[J];中国药科大学学报;2001年05期

9 郭志儒;人类基因组“中国卷”大事记[J];中国兽医学报;2001年05期

10 王克恭;;人类基因组与健康[J];内蒙古兽医;2001年03期

中国重要会议论文全文数据库 前10条

1 马大龙;;从人类基因组发现免疫相关分子[A];山东免疫学会、山东微生物学会医学微生物学专业委员会、山东省医学会微生物学和免疫学专业委员会、山东省医药生物技术学会2001年学术年会论文汇编[C];2001年

2 ;美国科学家提出人类基因组重组新理论[A];广西计算机学会2007年年会论文集[C];2007年

3 丁显平;;人类基因组及基因组计划[A];中国优生科学协会2004年优生科学学术交流大会论文集[C];2004年

4 周玮晨;金力;张锋;;人类基因组上的小片段重复序列可增加基因组不稳定性[A];2012年中国青年遗传学家论坛会议文集[C];2012年

5 辛洪波;;Mutagenesis in the Mouse[A];生物膜与重大疾病学术研讨会论文集[C];2004年

6 沈倍奋;;重组抗体在蛋白质组学研究中的应用[A];中国免疫学会第四届学术大会会议议程及论文摘要集[C];2002年

7 庄志雄;;表基因组学与环境医学[A];中国毒理学会第四届全国学术会议论文(摘要)集[C];2005年

8 汪建;;把握基因、决胜未来[A];培育生物产业,,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年

9 周雪雪;卓阳;;人类单核苷酸多态性的研究进展及应用[A];2012年浙江省美容与整形学术年会暨私营美容机构行业论坛论文集[C];2012年

10 侯一平;张思仲;;温度调控高效液相色谱探索人类基因组变异的进展[A];全国第六次法医学术交流会论文摘要集[C];2000年

中国重要报纸全文数据库 前10条

1 记者 李学梅;人类基因组中国部分“完成图”提前两年绘就[N];北京日报;2001年

2 李斌 卢晶 张乐;人类基因组最后完成图绘制过半[N];中国高新技术产业导报;2001年

3 记者 张小军 颜亮 毛磊;人类基因组工作草图绘制完成[N];新华每日电讯;2000年

4 大 可;人类基因组“差异图”标出致病基因差异[N];大众科技报;2005年

5 本报记者/王玲;演绎人类基因组的动人故事[N];经济日报;2004年

6 ;“人类基因组”将阔步向前[N];上海科技报;2003年

7 记者 李斌;为参与人类基因组的我国科学家鼓掌[N];新华每日电讯;2000年

8 记者 李斌;别玷污了人类基因组[N];新华每日电讯;2000年

9 记者 吴伟农;遗传信息公司首席科学官当选[N];新华每日电讯;2000年

10 记者 李斌;人类基因组“中国卷”率先绘制完成[N];新华每日电讯;2001年

中国博士学位论文全文数据库 前3条

1 陈河兵;基于整合组学策略的人类基因组功能元件的识别与注释[D];中国人民解放军军事医学科学院;2015年

2 汪旭;叶酸及其部分代谢因素对人类基因组稳定性的作用机制研究[D];复旦大学;2005年

3 吕军;人类基因组转录调节模体距离保守性的研究与转录起始位点的预测[D];内蒙古大学;2008年

中国硕士学位论文全文数据库 前9条

1 李秋平;人类基因组碱基组成的统计研究[D];兰州大学;2008年

2 张骥;人类基因组结构注释数据库构建及数据可视化展示[D];华中科技大学;2007年

3 金能智;人类基因组中若干序列的统计分析[D];兰州大学;2008年

4 宋玉梅;人类基因组编码蛋白基因的进化速率的研究[D];中国科学技术大学;2010年

5 杜志敏;双窗口模型结合小波多尺度分析识别人类基因组Isochore的边界[D];河北工业大学;2007年

6 张鹏飞;人类基因组中选择性剪接位点的预测及序列特征分析[D];内蒙古大学;2010年

7 杨泉胜;脑表达的X连锁基因的克隆、染色体定位和初步功能研究[D];浙江大学;2001年

8 王琦;基于DrSNP的SNP筛选策略的探索和实现[D];东南大学;2005年

9 柳晓龙;基于单核苷酸变异的等位基因选择性剪切模型研究[D];哈尔滨工业大学;2013年



本文编号:578453

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/578453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a41c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com