基于本体与基因网络的致病基因预测研究
发布时间:2017-09-11 07:45
本文关键词:基于本体与基因网络的致病基因预测研究
更多相关文章: 本体 数据融合 致病因预测 随机游走 有监督随机游走 拉普拉斯正规化
【摘要】:随着人类基因组计划的顺利完成,出现了许多高通量技术预测基因功能的方法,但是从这些方法产生的大量的候选基因集合中检测致病基因仍是一个十分艰巨的挑战,如果直接使用生物学实验验证则需要消耗大量人力物力。随着数据的积累,人们逐渐发现致病基因具有模块性,功能相同或者相似的基因编码的蛋白质,在蛋白质相互作用网络中相互靠近。利用已被证实的疾病和基因的关系,使用计算方法来预测候选致病基因通常能起到很好的效果,如计算候选基因和已知致病基因集合中的基因的相似性,然后根据相似性排名对候选基因进行排序,从而使生物学实验有针对的对基因进行实验验证,降低检测成本。本文主要以生物医学本体为中心,整合了九种不同生物医学数据库,构建了由78786个生物学实体或概念组成的一个双层异构网络,这个网络中包含本体术语之间的105875条有向边,以及术语到基因,基因和基因之间组成的398642条无向边。在构建网络时,使用超级叙词表等映射工具对九种数据库中不同类型的标识进行转换和去冗余;设计了一套整合不同关系证据类型的方案,根据边的关系证据集合的不同,为每条边赋予了不同的权值,最终构建的网络为带权的双层异构网络。依据网络中边的端点的不同,将边分为了七个大类,并验证了每一类的权值改变对基因预测最终的效果有直接影响,为每大类属于的边设置了一个特征向量,使用有监督的随机游走训练每个大类的特征权值,使得组合的权值能够更准确的进行致病基因预测,同时基于有监督随机游走算法,提出了拉普拉斯正规化的有监督随机游走,并在多次试验后验证了正规化的有监督随机游走在预测权值上优于有监督随机游走,针对正规化算法复杂度过高的问题,提出了简化版的正规化有监督随机游走。在构建的双层异构网络上分别进行随机游走,有监督随机游走,简化正规化随机游走的验证,最终有监督随机游走的AUC(Area Under roc Curve)比普通随机游走提高了0.8%,正规化随机游走AUC比普通随机游走提高了2.3%。
【关键词】:本体 数据融合 致病因预测 随机游走 有监督随机游走 拉普拉斯正规化
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 绪论8-13
- 1.1 课题研究背景及意义8-9
- 1.2 国内外研究现状9-11
- 1.3 本文主要研究内容及组织结构11-13
- 1.3.1 主要研究内容11-12
- 1.3.2 本文组织结构12-13
- 第2章 致病基因预测方法概述13-19
- 2.1 致病基因预测的主要流程13-14
- 2.2 致病基因预测的主要方法14-18
- 2.2.1 基于分子和网络特征分类的方法14-15
- 2.2.2 基于网络节点相似度排序的方法15-18
- 2.3 本章小结18-19
- 第3章 本体基因数据整合和网络构建19-34
- 3.1 引言19-20
- 3.2 生物医学本体数据整合20-28
- 3.2.1 本体论概述20-21
- 3.2.2 生物医学本体格式和关系抽取21-25
- 3.2.3 本体注释25-26
- 3.2.4 疾病表型与基因关系数据26-28
- 3.2.5 基因与基因关系数据28
- 3.3 本体与基因网络构建28-33
- 3.3.1 统一标识映射28-30
- 3.3.2 证据整合和网络构建30-33
- 3.4 本章小结33-34
- 第4章 基于有监督随机游走的致病基因预测34-46
- 4.1 引言34
- 4.2 随机游走模型概述34-35
- 4.3 有返回的随机游走35-36
- 4.4 有监督随机游走36-39
- 4.5 拉普拉斯正规化的有监督随机游走39-43
- 4.5.1 基本原理39-41
- 4.5.2 算法实现41-43
- 4.6 加权有监督随机游走的致病基因预测43-45
- 4.7 本章小结45-46
- 第5章 实验结果与分析46-55
- 5.1 改进的有监督随机游走有效性验证46-48
- 5.2 实验环境与实验数据48-49
- 5.3 实验结果验证方法和正负例生成49-50
- 5.4 实验结果50-54
- 5.4.1 重启概率的选择50-52
- 5.4.2 实验结果对比52-54
- 5.5 本章小结54-55
- 结论55-56
- 参考文献56-61
- 致谢61
【参考文献】
中国期刊全文数据库 前1条
1 陈坚;何洁月;;基于本体的生物信息集成技术发展现状[J];计算机工程与科学;2006年12期
中国硕士学位论文全文数据库 前1条
1 隽立然;基于生物医学本体的生物信息数据库集成方法研究[D];哈尔滨工业大学;2009年
,本文编号:829494
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/829494.html
最近更新
教材专著