基于机器学习的药物蛋白虚拟筛选方法研究
第1章 绪 论
1.1 课题研究的目的和意义
随着上个世纪末生命科学的快速发展,人类基因组计划的完成和后续功能基因组计划的实施,药物研究与医药产业已经进入了一个新的历史时期[1]。在最近的十几年,已经有越来越多有重要功能的生物大分子的三维结构相继被解析出来[2]。人类的基因包括 3.5-4 万条基因,其中,可编码的蛋白质数量仅激酶类的蛋白质预计就已达到 500-2000 个,这些目标都可以成为有用的药物标靶,也可以成为基于受体结构分子设计的主要数据源[3]。这些成就无疑极大地推动了人类对于生命的认知,同时也大大促进了其他学科的发展,而制药领域无疑是获益最多的。据统计,一种新药物从筛选到成功上市,平均需要 10 到 14 年的时间,中间过程的花费更是高达 2-3.5 亿美元[4]。目前,临床阶段的候选药物的淘汰率高达 90%,因此,如何缩短发现-药物(R&D)这一阶段所花费的时间,加快临床研究的速度就成为了各大制药公司和学术机构的研究重点[5]。但是随着 21 世纪计算化学以及生物学的快速发展,计算机辅助药物设计越来越受到人们的重视。如今,计算机辅助药物设计已经成为药物化学发展的重要分支,尤其在药物先导结构和新靶标的发现方面发挥了举足轻重的作用[6]。CADD 的主要任务是通过理论计算来研究受体生物大分子活性位点的结构与性质、药物与受体结合的模式以及相互作用、药物分子的活性基因等等[7]。从 1964 年 Hnacsh 和 Fujiat 提出定量构效关系(Quantitative Structure Activity Relationship,QSAR)方法以及 20 世纪 90 年代计算机软硬件的迅猛发展,CADD 中包含的许多理论和方法(如量子化学方法)也取得了明显的进步,这也使得计算机辅助药物设计逐渐从理论推演进入到了具体实用的阶段[8]。 目前,CADD 方法主要分为两类:基于小分子的药物设计(Ligand-based drug design,LBDD)和基于受体生物大分子结构的药物设计(Structure-based durg design, SBDD)[9]。 LBDD 多用于受体大分子三维结构尚未解析的情况,其方法主要包括 QSAR 和药效团模型法。SBDD 则是采用理论计算和分子模拟的方法,根据受体分子的三维结构为基础建立受体-配体小分子的复合物三维结构,以及结合过程中发生的相互作用两方面来设计能与受体结合腔互补的新分子。虚拟筛选是上述方法的扩展。目前,有两种虚拟筛选手段,分别是基于受体的虚拟筛选(Receptor-based Virtual Screening)和基于配体的虚拟筛选(Ligand-based Virtual Screening)[10]。从目前来看,基于受体的虚拟筛选虽然有较大潜力,但是这种策略十分依赖受体的晶体结构,当相关靶点缺少通过实验手段或核磁共振手段得到的结构时,其应用就受到了局限,而如何突破这样的局限也是目前研究的热点。
.........
1.2 化学信息学
化学信息学是建立在多学科基础上的一个新分支。它的主要思想是利用计算机技术对化学信息进行表示,管理,分析,模拟和传播,以实现化学信息的提取,转化与共享,揭示化学信息的实质与内在联系。化学信息学虽是一门新兴学科,但是由于它与正迅速发展的计算机科学结合紧密,因此一经提出就得到了较高的关注,并迅速发展起来[11]。20 世纪的中后期是计算机技术的发展的时代,这种发展对所有科学领域产生了深远的影响,尤其是已经累计了大量数据的化学和生物学。化学家开始意识到,这些海量信息已无法通过传统的手段解析,只有将这些信息转化为计算机数据,通过数据库的形式存在,才能为科学界所用,这也是化学信息学最开始的任务。但是知道 1998 年,Frank Brown 才最先总结出化学信息学的概念:应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分。化学信息学实际上是一种信息源的混合体。它可将数据转换为信息,再由信息转换为知识,从而使我们在药物先导化合物的识别和组织过程的决策变得更有效。由于组合化学的出现使得药物学发生了革命性变化,现代药物设计可以利用计算化学的方法,通过分子建模和虚拟合成各种化合物[12]。但是,通过这种方法得到的可供筛选的化合物库非常庞大。从理论上讲,可以合成的类药分子已超过了 1040个,因此,实际合成每一种可能的药物来进行筛选显然不切实际,因此如何从大量的数据中总结出规律也就成为了重中之重[10]。面对这个级别的数据量,需要将原本独立的化学、数学和计算机科学融合起来,构建一系列计算机技术工具。这些工具不但包括实验数据的分析,同时也包括分子各种性质的计算和化合物数据库的建立、分子虚拟合成、QSAR 的研究等等。化学信息学正是在上述需求上发展起来的一门学科。
...........
第2章 分子对接和蛋白质-配体交互指纹
分子对接(Molecular Docking)是分子模拟的重要方法之一,其本质是两个或多个分子之间的空间匹配和能量匹配。从热力学的角度上看,自由能最低的构象就是生物分子的稳定构象,所以分子对接就是要找到配体与受体在其活性区域相结合时能量最低的构象。本章将介绍分子对接的一些基本概念。
2.1 分子对接及其理论基础
2.1.1 分子对接原理
分子对接方法最早是由 I.D.Kuntz 提出的,依据的是配体与受体作用的“锁-钥原理”[28]。锁钥原理的基本思想是:蛋白质与配体之间的结合是刚性结合的结构匹配过程。随着对分子识别的进一步认识,发现蛋白与其配体之间的识别不仅是形状上的互补,也包括空间上的互补和能量上互补。因此,分子对接的概念发展为:首先产生一个填充受体分子表面的口袋或凹槽的球集,然后生成一系列假定的结合位点。依据受体表面的这些结合点与配体分子的距离匹配原则,将配体分子投映到受体分子表面,来计算其结合的模式和亲和力,并对计算结果进行打分,评判配体与受体的结合程度[29]。“锁-钥原理”的提出在当时为分子对接提供了大量的理论指导,但是随着分子技术的进步,科学家发现酶在与酶结合的时候某些集团会发生明显变化,并且常常能对同一个生化反应中正逆两个方向的反应都起催化作用。于是,D.E.Koshland 于 1958 年提出了“诱导契合学说”。这种学说认为酶并不是事先就和底物以互补的形式存在,酶蛋白的构象的变化是发生在底物结合上去之后[30]。
.........
2.2 蛋白质-配体交互指纹
尽管近几年国内外的研究者对此进行了大量的研究,但是目前的打分函数在功能和理论上还有许多的不足。有些打分函数侧重于对疏水性位点的分析,有的则侧重于分析极性位点。另外,由于大多数得到候选分子知识类似结构,因此就会造成不同程度的假阴性现象。为解决这个问题,就需要多个角度分析蛋白质-配体结合的自由能,并对产生的复合物集合进行分类。而蛋白质-配体交互指纹的概念作为后处理手段的一种也就应运而生,但是由于交互指纹容易生成和比较,因此也被逐渐开发了其他用途。本节将介绍交互指纹的基本概念和目前所取得的研究进展。交互指纹是通过原子3D坐标,通过0和1编码了单一配体与一组固定的氨基酸的结合位点的已经明确定义的交互作用[42]。这些交互作用的计算是根据发生反应的原子之间一组规则(原子类型)以及几何关系(距离,角度)[37]。传统的蛋白质-配体交互指纹主要是通过实验手段或者模拟计算手段获得的,试验方法的主流方法主要是X-射线晶体衍射,它的基本原理是:当一束单色X 射线入射到晶体时,由于晶体是由原子规则排列成的晶胞组成,这些规则排列的原子间距离与入射X 射线波长有相同数量级,故由不同原子散射的X射线相互干涉,在某些特殊方向上产生强X射线衍射,衍射线在空间分布的方位和强度,与晶体结构密切相关[43]。这种方法在研究目标复合物的蛋白质-配体相互作用的同时得到交互指纹,这也是获得复合物交互指纹的主要手段。
...........
第 3 章 蛋白质-配体交互指纹的预测 ............. 22
3.1 人工神经网络理论基础 .... 22
3.2 遗传模拟退火算法 ............ 26
3.2.1 遗传算法 .......... 26
3.2.2 模拟退火算法 ............. 27
3.2.3 遗传模拟退火算法 ..... 29
3.3 蛋白质-配体交互指纹进行预测模型的建立 .............. 29
3.3.1 目标蛋白质介绍 ......... 30
3.3.2 数据准备 .......... 31
3.4 实验结果及分析 ..... 34
3.5 本章小结 ...... 37
第 4 章 基于集成学习的药物蛋白虚拟筛选 .............. 38
4.1 支持向量机 ............. 38
4.2 集成学习方法 ......... 43
4.2.1 集成学习的基本概念 ............ 43
4.2.2 分类器集成的主要算法 ........ 44
4.2.3 基于 Adaboost-SVM 的分类 ........... 46
4.3 实验验证与分析 ..... 47
4.4 本章小结 ...... 50
第4章 基于集成学习的药物蛋白虚拟筛选
近几年,如何改善缺少实验室晶体的药物标靶蛋白的虚拟筛选准确率已经成为化学信息学的热点问题。在实际虚拟筛选中,经常会出现实验室晶体不足的情况,但为了保证机器学习中训练集的规模,就需要在原有的晶体结构中加入部分对接去向。这就使得最终的虚拟筛选效果会因为这些后掺入的样本而受到影响。以此为研究背景,本文将采用支持向量机(Support Vector Machine,SVM)作为基分类器,通过引入集成学习思想对其进行改进使之成为更适合本文所阐述的情况。
4.1 支持向量机
支持向量机已经成为一中备受关注的分类技术,虽然它只是在近几年才逐渐发展起来,但是这种分类技术建立在统计学习理论基础上,具有完备的理论基础和严谨的理论体系,所以广泛应用于模式识别、函数估计和时间序列预测等数据挖掘问题。将对于其他分类器,SVM 的抗噪性较好,并且SVM 的学习机制提供了很多可以对分类模型进行改进的空间。因此,本文仍然选择 SVM 作为解决本文问题的基本算法模型。在图 4-1 中显示的数据集中,方块和圆圈分别表示两种不同的样本。可以看到,,两种样本可以被不止一个超平面正确分隔开。虽然所有超平面的训练误差都为零,但是却无法保证这些超平面在未知实例上同样起作用。本文将通过图 4-2 来说明不同超平面对泛化误差的影响。在图 4-2 中,两个决策边界1B 和2B 都能正确的把样本分隔开。下一步就是通过决策边界来得到相应的超平面。首先,平移一个和决策边界平行的超平面直至与最近方块相切来得到i1b ,随后,用同样的方法平移直至与最近的圆圈相切来得到i2b 。这两个超平面之间的距离就是分类器的边缘。
...........
结论
在虚拟筛选逐渐成为制药行业主要手段的大背景下,分子对接技术日益成熟,而作为提升对接质量的手段之一,交互指纹的地位也渐渐提升,并被开发了许多其他的用途,本文对目前比较常见的交互指纹的类型及计算方法做了概念性的总结。最早的交互指纹是由 Deng 以及他的同事提出的 SIFt,SIFt 是基于对激酶结构的交互文件的分析而得出的,意在理解抑制剂选择的基本原理。这种技术随后被 Kelly and Mancera 扩展,并提出了基于原子的交互指纹的概念和用途。无论是基于残基还是基于原子的交互指纹,每种交互指纹都有自己的特点。一维的交互指纹相对于蛋白质-配体的 3D 结构来说,更加容易生成和比较,也就更加适用于计算机辅助药物设计。 本文针对基于分子对接的虚拟筛选中遇到的问题进行了深入的研究,提出了一套基于机器学习的虚拟筛选流程,为计算机辅助药物设计提供了一套有效的新方案。本文的贡献主要有两点:首先,本文分析了 BP 神经网络的优劣,引入了遗传模拟退火算法来改善 BP 神经网络收敛过慢和易陷入局部最优值的问题。用改进后的算法从 2D 的配体结构文件中预测出蛋白质-配体交互指纹,通过实验,在理论上证明了这种方法的可行性.本文通过对 SRC 和 Cathepsin K 两种蛋白质所构建的对比实验表明,集成学习思想可以有效的解决因样本集质量不高而影响最终虚拟筛选效果的问题,由机器学习所产生的交互指纹可以应用于虚拟筛选。 利用机器学习来对交互指纹预测目前还是初始阶段,但是算法并不仅限于人工神经网络,利用偏最小二乘法逻辑回归,K 最近邻同样也是可以的。利用机器学习预测出的交互指纹也展现了它的优势:简单,快速,构象鲁棒性,以及不依赖自由能分析。但是由于理论的不成熟,许多更加高效的机器学习算法还没有应用到交互指纹的预测当中,而伴随着相关理论的成熟和更高水平的算法的应用,利用机器学习来预测交互指纹的准确率会进一步提高,并会成为除了实验室手段之外主流的产生交互指纹的手段。
.........
参考文献(略)
本文编号:84476
本文链接:https://www.wllwen.com/wenshubaike/lwfw/84476.html