基于基因关联网络的表型相关性分析算法的研究
发布时间:2019-08-02 14:17
【摘要】:基因组测序开启了“组学”研究的大门,其中基因型变量与表型变量之间的关系是一项重要的研究内容。表型分子的起源和表型之间的关系的澄清,成为生物信息学和医学研究的一个关键任务。从生物学的角度来讲,表型会经历一个复杂的过程才能发生和发展,这个过程伴随着多基因间的相互作用,随着近年来实验水平和检测方法的不断提高,基因数据的完备性也越来越高,以基因网络为框架的研究方法为分析表型的发生和发展提供了新的思路。本文通过整合各类生物信息学知识,构建基因关联网络,提出算法准确地进行表型相关性分析的研究,可以更深入地理解表型之间的关系,为系统生物学进行表型相关性分析提供了指导和参考。本文整合物理蛋白质交互组数据和基因表型数据,构建基因网络,引入表型相关性算法在基因网络中分析表型之间的关系并使用实验验证算法的性能。本课题主要从以下几个方面进行研究:本文通过整合物理蛋白质的相互作用组构建基因网络,使用统一词汇表映射工具将不同数据规范成统一格式,构建出完备性高的基因网络。本文通过关联表型和基因数据,在基因网络中识别和定位表型模块,结合渗流理论在网络中引入自定义变量进行聚合基因模块的识别,并进行统计学分析。本文提出并改进算法来进行表型相似性分析,并基于表型的相似性与共享蛋白质相互作用有关这一理论,提出了基于网络的分离度的表型相似性算法和基因的邻居频率算法。本文使用已经成熟的算法和数据集来验证结果,使用包括基因本体等成熟的数据集和对应的相似性算法来验证我们的算法的性能,并引入重启动随机游走算法来进行表型相似性对比。本文在基因网络中提出的表型相关性分析算法,能够很好的量化表型之间的关系,并总结了基因网络的完备性和网络的初始权值等因素对不同算法产生的影响,为进一步探索表型的发生和发展机理提供帮助和指导作用。
【图文】:
图 1-1 课题的主要研究内容并进行表型模块的识别定位。人类表型本体算的表型知识系统,利用其提供的表型-基因注释信系,我们把与每一个表型相关的基因看作是一个集出标准算法在已经建立好的基因关联网络中识别出出表型模块在基因交互组网络中的位置,并进行统的表型相关性算法来进行表型相似性分析。在基因后,因为表型间会有共享基因,共享基因就导致了基于基因关联网络的表型相关性算法:基因分离度型模块之间的关系,即利用人类表型相似性与蛋白一性质,,在蛋白质相互作用网络中,提出或改进了表型相似性受到生物模块的相关基因的相互作用,到基因网络中计算表型基因的相似度,与我们提出
哈尔滨工业大学工程硕士学位论文集合(表型模块)识别或者定位出来,然后根据他们的重叠基因分析表型之间的关系。在定位表型模块之前,首先要分析一下假阳性链接(False Positive Links)对于网络定位的影响。由于当前交互组网络中包含一些假阳性相互作用组。因此,要探讨这些作用组在何种程度上会对表型的假聚类产生影响。对于蛋白质交互组或者是无偏的高通量数据集合,通过引入随机链接来人为地增加假阳性网络覆盖率。使用两种机制:第一个种机制通过从网络中随机选择两个蛋白质并连接它们,产生完全随机分散的链接。第二种机制是依据他们在原始网络中的概率成比例的链接,从而模拟假阳性对于作用组产生的影响。通过变换所引入的随机链接的程度,使用随机模拟测试一个可以被良好定位的疾病(多发性硬化症)的最大连通成分的显著性和一个不能被良好定位的疾病(小脑共济失调)的联通分量的显著性(如图 2-1 所示)。图中显示了 1000 个随机发生的网络的结果,其中每个假阳性率具有 1000 个随机变化的疾病蛋白质。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4
本文编号:2522165
【图文】:
图 1-1 课题的主要研究内容并进行表型模块的识别定位。人类表型本体算的表型知识系统,利用其提供的表型-基因注释信系,我们把与每一个表型相关的基因看作是一个集出标准算法在已经建立好的基因关联网络中识别出出表型模块在基因交互组网络中的位置,并进行统的表型相关性算法来进行表型相似性分析。在基因后,因为表型间会有共享基因,共享基因就导致了基于基因关联网络的表型相关性算法:基因分离度型模块之间的关系,即利用人类表型相似性与蛋白一性质,,在蛋白质相互作用网络中,提出或改进了表型相似性受到生物模块的相关基因的相互作用,到基因网络中计算表型基因的相似度,与我们提出
哈尔滨工业大学工程硕士学位论文集合(表型模块)识别或者定位出来,然后根据他们的重叠基因分析表型之间的关系。在定位表型模块之前,首先要分析一下假阳性链接(False Positive Links)对于网络定位的影响。由于当前交互组网络中包含一些假阳性相互作用组。因此,要探讨这些作用组在何种程度上会对表型的假聚类产生影响。对于蛋白质交互组或者是无偏的高通量数据集合,通过引入随机链接来人为地增加假阳性网络覆盖率。使用两种机制:第一个种机制通过从网络中随机选择两个蛋白质并连接它们,产生完全随机分散的链接。第二种机制是依据他们在原始网络中的概率成比例的链接,从而模拟假阳性对于作用组产生的影响。通过变换所引入的随机链接的程度,使用随机模拟测试一个可以被良好定位的疾病(多发性硬化症)的最大连通成分的显著性和一个不能被良好定位的疾病(小脑共济失调)的联通分量的显著性(如图 2-1 所示)。图中显示了 1000 个随机发生的网络的结果,其中每个假阳性率具有 1000 个随机变化的疾病蛋白质。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4
【参考文献】
相关期刊论文 前2条
1 王秀艳;崔雷;;应用关键动词抽取生物医学实体间语义关系研究综述[J];现代图书情报技术;2011年09期
2 骆建新,郑崛村,马用信,张思仲;人类基因组计划与后基因组时代[J];中国生物工程杂志;2003年11期
本文编号:2522165
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2522165.html
最近更新
教材专著