基于分子振动特征的药物靶点识别及活性预测模型研究
发布时间:2020-05-31 11:19
【摘要】:背景:目前,多数中药化学成分作用靶点及其生物活性尚不确定,这已成为阐明中药物质基础及其作用机制的瓶颈之一。中药化学成分作用靶点及其生物活性的研究有助于揭示中药在治疗疾病过程中发挥药效的程度以及为中药化学成分在体内发挥疗效的机制提供线索与指导,也有助于中药化学成分作用靶点的重新定位。随着科学技术的进步与发展,越来越多的中药化学成分被发现。由于时间与资金成本的限制,利用传统实验的方法进行中药化学成分与相关靶点之间生物活性的测定面临很大的挑战,花费昂贵且效率较低。采用机器学习的方法构建药物与靶点的定量预测模型进行中药化学成分作用靶点的识别及活性预测弥补了传统实验的不足,具有高效低耗的特点,被认为是研究化合物作用靶点与其生物活性的有效手段。近年来,越来越多关于药物与靶点相互作用关系预测的模型被报道,这些模型大多数是判断药物与靶点之间是否存在相互作用关系,不能进行活性预测,只有少数模型用于预测药物与靶点之间的定量关系,这些定量模型预测性能较差且只是针对少量靶点,即模型的准确性和适用范围还需要进一步提高。因此建立预测性能高与适用范围广的药物与靶点相互作用关系的定量预测模型是研究中药化学成分潜在作用靶点及活性预测亟待解决的问题。目的:本文旨在构建预测性能高及适用范围广的药物靶点定量预测模型,弥补当前采用实验手段确定药物潜在作用靶点及生物活性所带来的不足之处,提高当前药物靶点定量预测模型的预测性能及适用范围,以期为阐明中药的物质基础及作用机制提供一定的线索与指导。方法:(1)药物与靶点相互作用定量关系数据库的考察。从数据的可靠性,准确性,完备性,可获得性以及适用性五个方面对已有的药物与靶点相互作用关系数据库进行考察。数据的可靠性主要是考察数据的来源,准确性主要考察数据库收录数据的标准(主要是活性值的单位)是否一致,完备性主要考察数据库对当前药物与靶点相互作用关系的覆盖程度,可获得性主要考察数据获得的难易程度,适用性主要考察数据信息是否完善。最终,基于这五个方面确定本文的最佳数据源。(2)药物与靶点定量预测模型的构建。①根据收集的药物与靶点相互作用关系数据,计算化合物的分子描述符及靶点的序列描述符,从分子振动的角度对化合物的描述符进行筛选得到化合物的特征描述符子集,最后整合为药物靶点定量关系数据集。②对数据集进行数据预处理,包括数据的清理,集成,变换,规约。数据清理是指清除异常值,数据集成是指对收集的数据进行整合,数据变换是指将数据转化成适用于建模的形式,数据规约是指对数据进行归一化处理。③特征筛选及模型构建,采用“Boruta”程序包进行特征筛选构建数据集的特征子集,分别采用随机森林,支持向量机,人工神经网络三种机器学习算法进行药物靶点定量预测模型的构建。通过交叉验证的方法对模型的稳定性及预测性能进行验证,采用构建的模型对训练集和测试集分别进行预测,计算实验测得的值(真实值)和预测值之间的差值以及差值绝对值,分析训练集和测试集在每一差值范围内的样本量分布。绘制真实值与预测值的散点图,计算决定系数(R2)和均方误差(MSE)等回归模型的评价指标筛选最优模型。(3)通过与已报道的模型进行比较,判断本文所构建模型的准确性及适用范围。(4)最优预测模型在中药化学成分作用靶点识别及活性预测中的应用。收集Binding DB数据库中未参与本文模型建立的中药化学成分与靶点之间的定量关系,依据数据考察原则对数据进行收集整理获得新的数据集,采用已获得的最优模型对新的数据集进行预测,将预测值与真实值进行比较证明最优预测模型的准确性及适用性。结果:(1)选用ChEMBL数据库中的药物靶点定量关系数据作为本文的数据源。(2)建立了6个分别由EC50和KD值量化的药物靶点相互作用定量预测模型。基于本文收集的数据集分别建立了由EC50和KD值量化的药物与靶点相互作用关系的定量预测模型,涉及2207个化合物和1254个靶点共计21999条关系。从分子振动角度筛选出813个描述符表示化合物的特征子集。①采用随机森林算法构建的模型在训练集和测试集上具有良好的预测性能,EC50值量化的模型R2均大于0.96,MSE小于0.09;KD值量化的模型R2均大于0.94,MSE小于0.12;②采用支持向量机算法构建的模型在训练集上的预测性能优于测试集,EC50值量化的模型在训练集上的R2=0.9317,MSE=0.1270,测试集R2=0.5759,MSE=0.8356;KD值量化的模型在训练集上的R2=0.9099,MSE=0.1254,测试集R2=0.5083,MSE=0.7290;③采用人工神经网络算法构建的模型在训练集的预测性能也优于测试集,EC50值量化的模型在训练集的R2=0.7350,MSE=0.4867,测试集R2=0.5211,MSE=0.9590;KD值量化的模型在训练集上的R2=0.5857,MSE=0.5612,测试集R2=0.2961,MSE=1.019。比较数据集在每一差值绝对值范围内分布的样本量及上述回归模型的评价指标,随机森林算法构建的定量预测模型预测性能最好。(3)采用相同的模型评价指标与文献已报道的模型进行比较,结果表明本文构建的最优模型具有更高的预测准确性及适用范围。(4)采用本文构建的最优预测模型对Binding DB数据库中已有的但没有参与本文模型构建的中药化学成分与靶点的定量关系进行预测,结果表明本文预测的药物靶点相互作用关系与实验测量结果一致。在活性预测方面,实验测量的预测值均大于真实值,但是它们之间的差值集中在某一范围内。出现这种系统误差的原因可能是由于数据收集的来源不同,Binding DB数据库与ChEMBL数据库中的数据收入标准有所差异。可以通过设置校正因子来消除系统误差,校正因子可以由所有差值的平均值来表示。这也在一定程度上证明了本文建立的定量预测模型在中药化学成分作用靶点及活性预测方面的适用性。结论:本文首次提出了从分子振动的角度筛选化合物的分子描述符。成功建立了药物与靶点相互作用关系的定量预测模型。通过回归模型评价指标确定了随机森林算法构建的药物靶点定量预测模型为最优预测模型即模型具有更好的预测性能,支持向量机算法构建的药物靶点定量预测模型可能存在过拟合,人工神经网络算法构建的药物靶点定量预测模型可能存在欠拟合。通过比较,本文建立的最优模型的预测性能及适用范围均优于文献已经报道的最优模型。最终,在最优模型的基础上,对Binding DB数据库中的部分中药化学成分与靶点相互作用关系进行了定量预测,结果表明本文构建的药物与靶点相互作用关系定量预测模型在中药化学成分作用靶点及活性预测中的适用性,证明了从分子振动角度确定化合物描述符的客观性。
【图文】:
图2-1药物靶点相互作用关系数据集的类型及信息逡逑数化表征逡逑靶点是指药物与机体生物大分子结合的部位,涉及受体、酶、系统、基因等。靶点的参数化表征是构建模型的关键步骤。目用关系(Drug-TargetInteractions,DTIs)预测的方法主要包括两基于受体的方法n6]。在基于配体的方法中,例如定量构效关系搜索的方法[17]均是利用配体化学结构的相似性来预测DTIs,没。逡逑,基于受体的方法,例如反向分子对接,基于力场或评分函数评力的大小[18],,这两个参数通常被用来预测配体分子(通常是一
逦基于分子振动特征的药物靶点识别及活性预测模型研究逦逡逑在处理高维数据时,采用一种技术性方法处理大量数据会降低算法速度,占用太多资源,逡逑并且非常不方便,进行特征选择可以提高算法的准确性t38,%。特征数量过多时,许多机逡逑器学习算法的准确性将受到很大影响[4叱因此,进行模型的构建时必须进行特征筛选以逡逑达到降维、增强模型的泛化能力、避免过拟合的目的,但前提是必须保证不丢失重要的逡逑特征。主要包括基于排序的过滤方法和基于评估的包裹方法。逡逑基于排序的过滤(Filter)方法的基本思想是基于某一种度量标准,为每一个属性特逡逑征的重要性打分,按照打分值进行排序,最后选取排名靠前的特征,具体过程如图2-2逡逑所不。常用的度量标准有很多,如相关性(PearsonCorrelation),信息X椧妫ǎ桑睿妫铮颍恚幔簦椋铮铄义希牵幔椋睿澹桑牵╁澹郏簇荩鲆媛剩ǎ牵幔椋睿遥幔簦椋铮澹牵遥╁澹郏矗玻荩ǚ剑ǎ茫瑁椋樱瘢酰幔颍澹茫龋桑╁澹郏矗常荩疲椋螅瑁澹蝈澹樱悖铮颍澹咤义系取e义希疲澹幔簦酰颍邋澹欤椋螅翦危遥幔睿耄椋睿珏澹欤椋螅翦危疲澹幔簦酰颍邋澹螅酰猓欤椋螅翦义
本文编号:2689777
【图文】:
图2-1药物靶点相互作用关系数据集的类型及信息逡逑数化表征逡逑靶点是指药物与机体生物大分子结合的部位,涉及受体、酶、系统、基因等。靶点的参数化表征是构建模型的关键步骤。目用关系(Drug-TargetInteractions,DTIs)预测的方法主要包括两基于受体的方法n6]。在基于配体的方法中,例如定量构效关系搜索的方法[17]均是利用配体化学结构的相似性来预测DTIs,没。逡逑,基于受体的方法,例如反向分子对接,基于力场或评分函数评力的大小[18],,这两个参数通常被用来预测配体分子(通常是一
逦基于分子振动特征的药物靶点识别及活性预测模型研究逦逡逑在处理高维数据时,采用一种技术性方法处理大量数据会降低算法速度,占用太多资源,逡逑并且非常不方便,进行特征选择可以提高算法的准确性t38,%。特征数量过多时,许多机逡逑器学习算法的准确性将受到很大影响[4叱因此,进行模型的构建时必须进行特征筛选以逡逑达到降维、增强模型的泛化能力、避免过拟合的目的,但前提是必须保证不丢失重要的逡逑特征。主要包括基于排序的过滤方法和基于评估的包裹方法。逡逑基于排序的过滤(Filter)方法的基本思想是基于某一种度量标准,为每一个属性特逡逑征的重要性打分,按照打分值进行排序,最后选取排名靠前的特征,具体过程如图2-2逡逑所不。常用的度量标准有很多,如相关性(PearsonCorrelation),信息X椧妫ǎ桑睿妫铮颍恚幔簦椋铮铄义希牵幔椋睿澹桑牵╁澹郏簇荩鲆媛剩ǎ牵幔椋睿遥幔簦椋铮澹牵遥╁澹郏矗玻荩ǚ剑ǎ茫瑁椋樱瘢酰幔颍澹茫龋桑╁澹郏矗常荩疲椋螅瑁澹蝈澹樱悖铮颍澹咤义系取e义希疲澹幔簦酰颍邋澹欤椋螅翦危遥幔睿耄椋睿珏澹欤椋螅翦危疲澹幔簦酰颍邋澹螅酰猓欤椋螅翦义
本文编号:2689777
本文链接:https://www.wllwen.com/yixuelunwen/zhongyaolw/2689777.html
最近更新
教材专著