基于生物分子网络分析的疾病基因预测算法
本文关键词:基于生物分子网络分析的疾病基因预测算法,由笔耕文化传播整理发布。
【摘要】:疾病影响着人类的正常工作及生活,复杂疾病,以癌症为代表,更是严重威胁着人类的生命安全。对疾病生物标记的研究有助于揭开潜在疾病的发病机制,并引导个性化的治疗。因此,疾病生物标记的研究受到越来越多的关注,成为了生物信息学研究中一个极其重要的分支。近些年来,随着高通量测序技术的发展,各种不同的生物数据大量涌现,疾病生物标记的研究进入了一个新阶段。已知疾病基因,作为已经在临床上被证实跟疾病相关的基因,可以作为一种先验知识来指导研究。然而目前的大多数研究方法,只是把已知疾病基因作为对研究结果的验证数据,而没有作为先验知识去引导疾病生物标记的识别,本文研究中引入了这一数据作为先验知识。另外,大量生物数据的积累也推动了对各种计算方法的研究。在生物假说“同一疾病的蛋白质互相之间交互多”的基础上,研究者们通过在网络模型中计算各基因与已知疾病基因的距离,来预测疾病生物标记。这些距离度量方法包括基于最短路径、基于随机游走、扩散核等。扩散核能根据疾病网络的全局拓扑特性度量节点之间的距离,具有比较好的效果。本文研究中采用了扩散核(diffusion kernel)思想。本文提出了一种以已知疾病基因集合引导的疾病网络的构建方法,并从构建的疾病网络中预测疾病相关基因。本文具体的研究思路如下:首先,从三个公共数据库中收集针对某种癌症的已知疾病基因,对每种癌症得到一个疾病基因集合。针对本文研究的六种癌症(肺癌,前列腺癌,乳腺癌,膀胱癌,大肠直肠癌,子宫内膜癌),共获得了六个基因集合。然后,采用扩散核思想在每一个疾病基因集合基础上构建一个疾病分子网络。扩散核在本文中被用来度量基因之间的相似性,旨在找出与已知疾病基因相似性高的基因,用于构建网络。最后,采用马尔科夫聚类算法(MCL)在疾病网络上进行聚类,并设计了一种按聚类模块为单位的新颖的得分算法对疾病网络中除已知疾病基因以外的基因打分,从中筛选癌症相关基因并进行了一系列验证。另外,为了说明以疾病基因集合为疾病网络的初始节点集合的合理性,我们在PPI的最大连通图上比较了疾病基因与非疾病基因的拓扑特性差异。实验结果表明,本文的研究方法能比较有效地构建疾病分子网络,预测与特定癌症相关程度高的基因。从与经典的带重启的随机游走的预测方法的结果对比来看,本文方法预测的致病基因在已知疾病基因数据库中展现了更显著的富集性,对癌症样本和正常样本的分类效果也更好。本文的算法将从某种程度上揭示癌症的发病机理,并为深入了解癌症的机制提供支持。
【关键词】:PPI网络 疾病网络 拓扑特性 扩散核 生物标记
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R3416
【目录】:
- 摘要5-7
- ABSTRACT7-14
- 第一章 绪论14-20
- 1.1 研究背景及意义14-15
- 1.2 研究现状15-17
- 1.3 本文工作及组织结构17-20
- 第二章 疾病基因预测研究概述20-30
- 2.1 相关生物数据20-25
- 2.1.1 蛋白质相互作用网络20-21
- 2.1.2 疾病基因数据21-23
- 2.1.3 基因表达数据23-24
- 2.1.4 GO本体论和注释数据24-25
- 2.2 疾病基因预测方法25-30
- 2.2.1 基于模型的预测方法25-26
- 2.2.2 基于距离的预测方法26-27
- 2.2.3 基于模块的预测方法27-28
- 2.2.4 基于数据集成的预测方法28-30
- 第三章 基于网络分析的疾病基因预测算法30-40
- 3.1 方法概述30-31
- 3.2 疾病网络构建方法31-35
- 3.2.1 疾病基因收集32
- 3.2.2 网络构建算法32-35
- 3.3 致病基因的预测方法35-38
- 3.3.1 聚类算法36-37
- 3.3.2 模块得分算法37
- 3.3.3 基因得分算法37-38
- 3.4 本章小结38-40
- 第四章 实验结果与分析40-58
- 4.1 实验数据40-43
- 4.1.1 PPI的处理40
- 4.1.2 疾病基因的筛选40-41
- 4.1.3 基因表达数据预处理41-43
- 4.2 疾病网络合理性分析43-48
- 4.2.1 疾病基因拓扑特性分析43-46
- 4.2.2 疾病网络拓扑特性分析46
- 4.2.3 聚类模块结构分析46-48
- 4.3 预测的致病基因的验证与分析48-57
- 4.3.1 留一交叉验证48-51
- 4.3.2 分类性能分析51-52
- 4.3.3 富集分析52-57
- 4.4 本章小结57-58
- 第五章 总结与展望58-60
- 参考文献60-66
- 致谢66-68
- 作者简介68-69
【相似文献】
中国期刊全文数据库 前10条
1 刘二林;;预测疾病基因[J];家庭医学;1988年05期
2 刘建,贺红焰;疾病基因多态性研究是发展个体化临床医学的新途径[J];医学与哲学;2000年05期
3 ;基因组医学、染色体组和人类疾病基因(1)[J];现代临床医学生物工程学杂志;2004年01期
4 陈晓红,陈智;寻找疾病基因的策略进展[J];国外医学.流行病学传染病学分册;2004年01期
5 ;基因组医学、染色体组和人类疾病基因(10)[J];现代临床医学生物工程学杂志;2005年04期
6 袁芳;王瑞春;管明祥;周艳红;;基于功能的疾病基因预测系统设计与应用[J];计算机工程;2010年12期
7 袁芳;李靖;;基于功能相似性预测疾病基因[J];计算机应用研究;2012年11期
8 ;基因组医学、染色体组和人类疾病基因(1)[J];现代临床医学生物工程学杂志;2004年01期
9 ;基因组医学、染色体组和人类疾病基因(3)[J];现代临床医学生物工程学杂志;2004年03期
10 周艳红,周权雄,刘怀兰,万宏辉;基于密码子使用特征预测家族性扩张型心肌病的疾病基因[J];科学通报;2005年20期
中国重要会议论文全文数据库 前4条
1 刘维湘;袁克虹;黄勋;唐爱发;贾少微;;疾病基因预选方法综述[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
2 孔令雯;葛正行;;综述COPD疾病基因多态性研究进展[A];2011年贵州省中西医结合学会呼吸专业学术会议论文汇编[C];2011年
3 夏诏杰;王忠;郭力;;构建中风疾病基因关系网络的方法研究[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
4 程义林;杨森;张学军;;常见复杂疾病表型基因型全基因组关联分析的问题和对策[A];中华医学会第14次全国皮肤性病学术年会论文汇编[C];2008年
中国重要报纸全文数据库 前8条
1 李斌;成都学者研究疾病基因榜上有名[N];成都日报;2007年
2 许铁男;欧洲掀起探索疾病基因热潮[N];医药经济报;2001年
3 记者 尹宁静;易感疾病基因检测进入泰州[N];泰州日报;2006年
4 记者 李天舒;我国将开展五类重大疾病基因研究[N];健康报;2008年
5 霍冬;现代疾病基因新疗法[N];中国高新技术产业导报;2000年
6 本报记者 杨子岩;一匹海外骏马驰骋在喻家山[N];人民日报海外版;2011年
7 刘燕玲;中药与基因功能调控[N];健康报;2003年
8 薛祖玲 王春;上海市自然科学牡丹奖揭晓[N];科技日报;2005年
中国博士学位论文全文数据库 前1条
1 袁芳;基于基因功能信息预测疾病相关基因[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前7条
1 虞佳;基于生物分子网络分析的疾病基因预测算法[D];西安电子科技大学;2014年
2 陈颖;基于复杂网络的疾病基因预测的研究[D];东北大学;2009年
3 滕明祥;基于蛋白质互作网络的疾病相关miRNA挖掘方法的研究[D];哈尔滨工业大学;2008年
4 李论;基于氨基酸使用偏好及基因功能信息预测疾病相关基因[D];华中科技大学;2008年
5 周权雄;疾病基因密码子使用特征分析及致病基因预测[D];华中科技大学;2006年
6 李倩;与疾病相关的差异表达基因检测[D];西安电子科技大学;2010年
7 王卉;蛋白质编码基因及遗传疾病相关基因的预测[D];华中科技大学;2006年
本文关键词:基于生物分子网络分析的疾病基因预测算法,,由笔耕文化传播整理发布。
本文编号:364935
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/364935.html