基于智能计算的生物网络构建算法的研究
发布时间:2017-05-05 11:05
本文关键词:基于智能计算的生物网络构建算法的研究,由笔耕文化传播整理发布。
【摘要】:随着人类基因组计划(HGP)的完成,人类进入后基因组时代。研究也从单纯分析基因碱基构成,逐渐转向特定功能基因的研究。细胞是一个复杂的非线性系统,任何细胞活动都需要多个基因、多个蛋白质以及多种代谢物共同作用来完成,仅仅对单个基因进行分析很难获得其具体生物学功能,于是人们逐步开始探索多个基因、多个蛋白质之间的相互关系。生物网络是研究生物分子之间相互关系的一个重要工具。它能直观反映基因、蛋白质、代谢物以及环境之间相互作用的规律,对在分子水平上认识基因和蛋白质功能具有重要作用。同时,也能帮助揭示新陈代谢、信号转导、细胞分化、细胞生成和凋亡等细胞活动规律,为下一步进行新药开发、疾病预防和治疗提供重要理论依据。生物网络的构建十分困难,传统上利用人工方法通过生物实验数据进行,这种方法不但费时费力,效率也很低。随着生物技术特别是高通量技术发展,大量生物数据被测定出来,人工方法也越来越不能适应生物数据的快速增长,因此,人们开始探索使用计算方法来自动完成生物网络的构建。本文就是从这个思路出发,利用计算智能的方法,通过反向工程学原理,对生物网络进行自动构建。对于生物网络的构建,本文分为动态网络的构建和静态网络的构建两部分。动态网络的构建是指基因调控网络(GRN)的构建,是通过算法学习基因表达的时间序列数据,自动构建基因调控网络的动态调控模型,进而分析其动力学特性。静态网络的构建是指蛋白质相互作用网络的构建,是通过算法学习蛋白质序列数据,建立蛋白质相互作用的预测模型,进而确定网络中的边(即存在相互作用的蛋白质对)。对于这两个问题的研究,本文主要创新之处在于:1、提出使用基于质量作用定律的模型描述基因调控网络。描述基因调控网络的模型有很多,微分方程模型由于能反映基因调控的动力学特性而广受欢迎。传统的微分方程模型大都基于S-System模型,但该模型仅是一个经典数学模型,其参数没有具体生物学含义,因此即使模型被建立起来也难以对其进行解释。为解决这个问题,本文提出基于质量作用定律的微分方程模型(MA)。MA模型基于经典生化反应定律——质量作用定律,方程推导充分考虑基因调控的生物机制,能更精确反映基因相互作用的真实情况。此外,该模型的所有参数都可解释,有利于人们进一步分析基因调控背后的规律。2、提出基于质量作用模型的基因调控网络自动构建算法。MA模型虽然具有参数生物学含义明确、生物理论基础扎实的特点,但如何通过基因表达的时间序列数据,自动构建该模型仍是一个需要解决的问题。本文提出基于种群的增量学习算法(PBIL)和三角法差分进化算法(TDE)的混合算法,用于MA模型的构建。该算法分两步进行,第一步是利用改进的PBIL算法推导基因之间的相互作用(“激活”、“抑制”或“无调控”),构建出MA模型的结构。第二步是在第一步的基础上,利用TDE算法优化MA模型的参数,使计算出的数据与真实生物实验数据在最大程度上拟合。为验证该算法,实验在人工合成网络、酵母菌的IRMA合成网络、简化的IRMA合成网络、大肠杆菌的SOS DNA修复网络上进行,结果表明,该方法不仅能够完成基因调控网络MA模型的自动构建,而且与其他方法相比,该方法构建的网络也更加准确。3、提出使用基于时间延迟的质量作用模型(TDMA)描述基因调控网络。基因调控过程并不是一个瞬时完成的过程,期间涉及到很多化学反应环节,而这些环节都需要消耗一定的时间。传统的微分方程模型大都不考虑时间延迟,这显然是不符合事实的。为解决这个问题,本文在MA模型的基础上引入了时间延迟,提出TDMA模型,使用时滞微分方程去替代原来的常微分方程,这样可以更加精细的刻画基因调控的真实过程。4、提出基于延迟质量作用模型的基因调控网络并行化自动构建算法。对TDMA模型的基因调控网络自动构建算法仍采用PBIL和TDE的混合算法。但由于时间参数的引入造成了计算复杂度提升,为解决这个问题,本文利用消息传递接口模型(MPI),将上述网络自动构建算法进行并行化改进,使该算法能充分利用主流处理器的多个核心,实现算法加速。实验在三个基因调控网络模体协调-1型前馈环、非协调-1型前馈环、双扇网络,以及酵母菌的简化IRMA合成网络中进行,结果表明,该方法不仅能够成功的推导网络的结构和参数,也能够成功推导出基因调控延迟。5、提出基于集成概率神经网络的蛋白质相互作用预测算法。构建蛋白质相互作用网络的一个重要问题就是寻找存在相互作用的蛋白质对,即预测蛋白质之间是否存在相互作用。蛋白质相互作用预测中最常用的方法是基于蛋白质序列的方法。但由于蛋白质序列十分简单,如何选择合适的特征来表示蛋白质序列就显得至关重要。以前的方法都是选择单一的较优特征或者选择多个特征形成组合特征,然后输入预测模型计算。然而,选择单一特征往往不能全面反映蛋白质的特性,而选择多个特征虽然比较全面,但也存在计算量大,多个特征相互干扰的问题。为了解决这个问题,本文提出基于集成概率神经网络的预测方法。该方法首先利用11种不同的蛋白质理化性质和自协方差(AC)方法对蛋白质序列进行特征提取,获得11个不同的特征向量。然后,利用11个不同的概率神经网络(PNN)分别学习这11个特征。最后,通过将这些PNN的结果集成来确定最终结果。由于每个PNN仅学习一个特征,因此避免了多个特征之间的干扰。又由于它们学习的特征不同,因此会形成不同的决策函数,从而增加了决策多样性。此外,所有的PNN都参与了集成,使得所有的特征都得到了利用,这避免了选择部分特征学习而造成的偏差。实验对主流的DIP、H.pylori、Human三个数据集进行了测试,结果表明该算法相比于其他算法,具有更好的预测性能。
【关键词】:基因调控网络 蛋白质相互作用网络 质量作用定律 智能计算 集成学习
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q811.4;TP301.6
【目录】:
- 英文缩写对照表14-16
- 中文摘要16-19
- ABSTRACT19-23
- 第1章 绪论23-30
- §1.1 研究背景和意义23-24
- §1.2 国内外研究现状24-27
- §1.3 论文研究内容与组织结构27-30
- 第2章 生物背景知识和相关方法30-44
- §2.1 基因调控网络构建的相关方法30-36
- 2.1.1 基因调控与基因调控网络30-31
- 2.1.2 基因调控网络模型31-36
- §2.2 蛋白质相互作用网络构建的相关方法36-43
- 2.2.1 蛋白质相互作用36
- 2.2.2 生物实验方法36-38
- 2.2.3 基于计算的方法38-43
- §2.3 本章小结43-44
- 第3章 基于质量作用定律的微分方程模型44-56
- §3.1 概述44
- §3.2 质量作用定律44-45
- §3.3 质量作用定律描述基因的调控与表达45-54
- 3.3.1 组成型基因表达过程的动力学描述45-47
- 3.3.2 受单基因调控的基因表达过程的动力学描述47-49
- 3.3.3 受双基因调控的基因表达过程的动力学描述49-52
- 3.3.4 受多基因调控的基因表达过程的动力学描述52-54
- §3.4 基因调控网络的表示54-55
- §3.5 本章小结55-56
- 第4章 基于质量作用模型的基因调控网络反向工程的研究56-89
- §4.1 概述56-57
- §4.2 基于PBIL的网络结构构建算法57-62
- 4.2.1 PBIL算法57-58
- 4.2.2 改进的PBIL算法58-60
- 4.2.3 PBIL算法推导网络结构的算法流程60-62
- §4.3 基于TDE的模型参数优化算法62-70
- 4.3.1 差分进化算法62-63
- 4.3.2 TDE优化模型参数63-67
- 4.3.3 优化模型参数的算法流程67-68
- 4.3.4 四阶龙格库塔法求解微分方程68-70
- §4.4 评价函数70-73
- 4.4.1 适应值函数70-71
- 4.4.2 评价指标71-73
- §4.5 算法总流程73-75
- §4.6 实验结果及分析75-88
- 4.6.1 人工合成网络75-80
- 4.6.2 酵母菌IRMA合成网络80-85
- 4.6.3 大肠杆菌SOS DNA修复网络85-88
- §4.7 本章小结88-89
- 第5章 基于时间延迟模型的基因调控网络反向工程的研究89-111
- §5.1 概述89-90
- §5.2 基于时间延迟的质量作用模型90-92
- 5.2.1 组成型基因表达90-91
- 5.2.2 受控基因表达91-92
- §5.3 基于TDMA模型的基因调控网络自动构建算法92-98
- 5.3.1 基于MPI的并行PBIL算法93-96
- 5.3.2 并行PBIL算法构建网络结构的流程96-97
- 5.3.3 TDE算法优化时间延迟参数97-98
- §5.4 实验结果及分析98-110
- 5.4.1 协调-1型前馈环网络99-102
- 5.4.2 非协调-1型前馈环网络102-105
- 5.4.3 双扇网络105-108
- 5.4.4 酵母菌IRMA合成网络108-110
- §5.5 本章小结110-111
- 第6章 基于集成概率神经网络的蛋白质相互作用预测研究111-130
- §6.1 概述111-112
- §6.2 基于概率神经网络的蛋白质相互作用预测算法112-120
- 6.2.1 基于自协方差方法的蛋白质特征提取算法112-116
- 6.2.2 概率神经网络116-118
- 6.2.3 概率神经网络的集成118-120
- §6.3 实验结果及分析120-129
- 6.3.1 数据集120-122
- 6.3.2 算法参数的确定122-125
- 6.3.3 单个PNN性能测试125-127
- 6.3.4 集成PNN性能测试127-129
- §6.4 本章小结129-130
- 第7章 总结与展望130-132
- §7.1 本论文的总结130-131
- §7.2 未来工作的展望131-132
- 参考文献132-144
- 致谢144-145
- 攻读博士学位期间发表的论文和参与的项目145-146
- 附件146-168
【共引文献】
中国期刊全文数据库 前5条
1 顾天元;张宁;宋科璞;;环境感知固定翼验证机系统的设计与实现[J];飞行力学;2014年06期
2 张博;李军怀;王志晓;张t,
本文编号:346203
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/346203.html