基因网络信息搜索引擎的构建、优化与应用

发布时间:2017-06-09 12:14

  本文关键词:基因网络信息搜索引擎的构建、优化与应用,由笔耕文化传播整理发布。


【摘要】:随着高通量技术的迅速发展,各种类型的生物学研究海量数据产生,生物信息学与计算生物学也不断发展相应的理论和技术以剖析这些数据蕴含的信息。然而理解和解释复杂的生命现象仍然还是一个难题。生命活动的过程及参与其中的因素是一个复杂的网络系统。研究生物学网络(Biological Networks)是理解复杂生命活动的一个关键。目前越来越多的与复杂性状相关的候选基因或候选生物标记正通过全基因组关联分析(Genome-Wide Association Studies, GWAS)等手段挖掘出来,但是GWAS获得的结果只能初步揭示可能的显著效应SNP与相关基因,后续仍有优先排序(Prioritizing)、验证(Validating)等大量工作。我们试图综合现有的生物学网络信息,建立一个统一各类型数据的高效、便捷、可靠、可拓展的可视化基因网络搜索引擎,帮助对GwAS等统计分析结果的深入挖掘。以此,我们构建了个整合多种生物网络信息,同时具有存储、搜索、可视化三种功能的基因网络数据库服务平台Biopublnfo。我们以基因、蛋白质、表型等生物学概念作为网络中的节点,以蛋白质互作、基因调控、基因表型相关、生物学通路关系等作为网络中的线,我们搜集下载了大量生物学的各类概念数据和关系数据,并做了一系列格式标准化和关系分值标准化的工作,在这一过程中摸索出整合各类生物学数据的方法和关系类型的分类评分标准。生物学网络数据的复杂性和海量性,对搜索引擎平台的存储、计算性能和稳定性都提出了巨大的挑战。我们对平台的硬件系统、操作系统、搜索引擎服务框架和用户交互界面都进行了一系列的调整优化,建立了一个稳定可靠、快速响应、用户友好的系统。 这一平台建立后,我们可以高效地利用多维度的基因网络对全基因组关联分析检测到的候选基因进行优先排序,验证,以及深度生物信息挖掘。我们分别对二型糖尿病和尼古丁依赖数据进行了全基因组关联分析,并利用BiopubInfo这一平台对鉴定的候选基因进行后续分析。二型糖尿病是一种典型的复杂疾病,对人体的健康和寿命有很大的影响。对二型糖尿病的基因调控和生物代谢过程的深入研究,能够对预防和治疗二型糖尿病发挥积极的作用。我们利用GMDR-GPU程序分析了WTCCC的二型糖尿病数据,获取了一到五维的二型糖尿病关联SNPs。对这些SNPs分析后发现六个候选基因。进一步对这六个候选基因进行生物学网络信息分析,发现其中三个基因已有研究报道与二型糖尿病及其相关性状有关联,其余的三个基因为新发现的二型糖尿病相关基因,它们与这三个基因有大量的生物学关联,为验证统计分析结果提供了佐证,也从另一个角度解释了为何只能在多维的SNP分析中才找到这三个基因。尼古丁是成瘾性非常高的一种毒品,依赖尼古丁的人群戒烟有很大的困难,尼古丁依赖的程度也受基因和环境的影响。我们利用QTXNetwork对来自dbGAP的尼古丁依赖数据进行了全基因组关联分析,我们还用其它四种毒品的成瘾数据分别对尼古丁依赖做了条件定位分析。我们把条件分析和非条件分析得到的三组基因分别进行了整合生物网络信息的分析,观察到了三种具有明显差异的网络模式,因而在一定程度上揭示了条件分析的有效性和必要性。我们也从网络图中找到一些证据,可解释为何有些基因在互作中才表现出效应。通过对这两项实例分析,说明了我们开发的基因网络搜索平台可为GWAS领域的后续分析和结果验证提供帮助。
【关键词】:生物网络 基因网络 数据库 全基因组关联分析
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q811.4
【目录】:
  • 致谢6-7
  • 摘要7-9
  • Abstract9-14
  • 图表目录14-15
  • 1 绪论15-25
  • 1.1 研究目的和意义15-16
  • 1.2 生物学网络信息数据库概览16-23
  • 1.2.1 生物数据库的整合17-18
  • 1.2.2 生物网络概念和分类18-21
  • 1.2.3 生物信息的可视化21
  • 1.2.4 典型的可视化生物网络数据库21-23
  • 1.3 研究方法和流程23-25
  • 2 基因网络信息搜索引擎BiopubInfo的构建25-55
  • 2.1 概念数据的构建方法和流程25-27
  • 2.1.1 物种25-26
  • 2.1.2 基因和蛋白质26
  • 2.1.3 化合物和药物26
  • 2.1.4 其他概念信息26-27
  • 2.2 关系数据的构建方法和流程27-39
  • 2.2.1 生物学通路与基因的关系数据30-31
  • 2.2.2 基因共表达网络31-39
  • 2.3 搜索引擎服务框架的构建39-43
  • 2.3.1 硬件和操作系统39-40
  • 2.3.2 图数据库40-42
  • 2.3.3 Web服务和网页前端42-43
  • 2.4 BiopubInfo界面和使用简介43-49
  • 2.4.1 搜索方式43-44
  • 2.4.2 结果展示44-49
  • 2.4.3 导出功能49
  • 2.5 BiopubInfo的优化49-52
  • 2.5.1 展示界面和搜索结果优化50-51
  • 2.5.2 系统服务优化51-52
  • 2.6 讨论52-55
  • 3 全基因组关联分析及结果的验证和挖掘55-73
  • 3.1 引言55-56
  • 3.2 二型糖尿病全基因组关联分析结果的验证和挖掘56-64
  • 3.2.1 引言56-58
  • 3.2.2 数据来源和统计分析结果58-60
  • 3.2.3 应用BiopubInfo进行验证与挖掘60-63
  • 3.2.4 讨论63-64
  • 3.3 尼古丁依赖的全基因组关联分析结果的验证和挖掘64-73
  • 3.3.1 引言64-65
  • 3.3.2 数据和统计分析结果65-69
  • 3.3.3 BiupubInfo的验证与挖掘结果69-71
  • 3.3.4 讨论71-73
  • 参考文献73-83
  • 个人简历83-84
  • 附件84

【参考文献】

中国博士学位论文全文数据库 前1条

1 朱智宏;遗传分析方法和软件开发及其应用[D];浙江大学;2012年


  本文关键词:基因网络信息搜索引擎的构建、优化与应用,,由笔耕文化传播整理发布。



本文编号:435424

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/435424.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1688c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com