组合药物的机器学习预测方法构建及应用
发布时间:2021-11-27 08:23
组合药物是制药工业中很有前途并且十分重要的研究领域。传统药物学遵循“一药一靶”的理念,但在使用单一药物治疗的过程中往往会出现耐药性和副作用,同时新靶点发现相当缓慢,这使得新药研发落后于市场需求。由于生物体本身的复杂性,也使得复杂疾病在单一药物的作用下收效甚微。药物的联合使用是经过FDA认证的一种常用疗法,已有许多实例表明组合药物对复杂疾病有着良好的疗效,能够起到“增效减毒”的作用。传统的组合药物发现依赖于大规模的生物学实验,消耗大,效率低。近年来高通量测序数据的积累与机器学习算法的发展为计算药物模型在药物研发中的应用奠定了数据与理论基础。然而,目前的计算方法一般只使用部分数据,未充分利用积累的多组学数据,这也使得许多计算结果的可靠性较低。本研究从Drug Bank、Therapeutic Target Database(TTD)和The Drug Gene Interaction Database(DGIdb)等数据库收集了药物与靶标和适应症数据,同时从Connectivity Map(CMap)收集了经过1309个药物小分子处理的基因表达谱数据,组合药物数据来源于Drug Combi...
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
机器学习问题分类示意图
华中农业大学2020届硕士研究生学位(毕业)论文16图2CMap药物表达谱数据预处理流程Fig.2DatapreprocessingprocessofCMapdrugexpressionprofile2.3.2药物模块数据的预处理通过CMap药物芯片数据的计算和整合,最终得到了包含1309个药物小分子的22215个基因探针的表达矩阵数据,本研究将使用聚类的方式对该数据进行进一步的发掘并提取有价值的数据信息。fabia是SeppHochreiter在09年开发的一种基于R的双聚类算法,其它的双聚类算法还包括biclust、bicat、QUBIC和Bayesinbiclusteringmodel(BBC),fabia的优点是适合大规模数据的聚类。本研究将计算药物表达谱数据过程中获得的1309x22215的药物-基因探针表达矩阵作为输入数据,首先使用R语言中的scale函数对表达谱数据进行归一化处理,之后使用R语言中的fabia数据包进行双聚类运算,本研究根据Min的已知经验(Xiongetal2016)将需要设置双聚类算法的bicluster个数,以及其他参数的设置情况参见表4。得到的结果使用fabia数据包中的extractBic函数将双聚类的结果提取出来,最终1309个药物被聚类到了50个药物模块类别之中,该数据即为本研究使用的药物模块数据。
组合药物的机器学习预测方法构建及应用21图3所用组合药物数据集中的正负样本占比饼图Fig.3Piechartofpositiveandnegativesampleproportionindrugcombinationdataset2.4.3基于近邻推荐方法的预测模型构建近邻推荐算法(neighborrecommendermethod)(Bobadillaetal2013)是常用的推荐算法之一,在互联网领域有着广泛的使用场景,它常常被用来进行商品、电影和图书等物品推荐(Karimietal2018)。近邻推荐的潜在假设为:两个动作相似性越接近的物体更可能具有相似的动作或性质。根据该假设,在构建近邻推荐推行之前,本研究分别对五种药物组合Tanimoto系数进行正负样本差异性分析,即使用学生氏t检验(Student’st-test)(Hungetal2005)和Kolmogorov-Smirnov检验(KS-test)(RazaliandWah2011)分析正负样本之间相似性的差异从而预估使用本研究数据所建立的近邻推荐模型的优劣,即如果不同相似性正样本相似性显著的高于负样本相似性,那么该相似性更能区分正负样本特性从而获得更加优秀的预测模型。因此使用两种差异分析算法为后续特征筛选提供先验知识。T检验是用T分布理论来判断两组数据之间的差异,是由戈斯特为了控制啤酒质量监控的成本而发明的方法。T检验可分为单总体检验、双总体检验以及配对样本检验,本研究使用的是双总体检验方法,用以检查两组非相关样本数据之间的差异性,该检验的统计量计算方法为:
本文编号:3521901
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
机器学习问题分类示意图
华中农业大学2020届硕士研究生学位(毕业)论文16图2CMap药物表达谱数据预处理流程Fig.2DatapreprocessingprocessofCMapdrugexpressionprofile2.3.2药物模块数据的预处理通过CMap药物芯片数据的计算和整合,最终得到了包含1309个药物小分子的22215个基因探针的表达矩阵数据,本研究将使用聚类的方式对该数据进行进一步的发掘并提取有价值的数据信息。fabia是SeppHochreiter在09年开发的一种基于R的双聚类算法,其它的双聚类算法还包括biclust、bicat、QUBIC和Bayesinbiclusteringmodel(BBC),fabia的优点是适合大规模数据的聚类。本研究将计算药物表达谱数据过程中获得的1309x22215的药物-基因探针表达矩阵作为输入数据,首先使用R语言中的scale函数对表达谱数据进行归一化处理,之后使用R语言中的fabia数据包进行双聚类运算,本研究根据Min的已知经验(Xiongetal2016)将需要设置双聚类算法的bicluster个数,以及其他参数的设置情况参见表4。得到的结果使用fabia数据包中的extractBic函数将双聚类的结果提取出来,最终1309个药物被聚类到了50个药物模块类别之中,该数据即为本研究使用的药物模块数据。
组合药物的机器学习预测方法构建及应用21图3所用组合药物数据集中的正负样本占比饼图Fig.3Piechartofpositiveandnegativesampleproportionindrugcombinationdataset2.4.3基于近邻推荐方法的预测模型构建近邻推荐算法(neighborrecommendermethod)(Bobadillaetal2013)是常用的推荐算法之一,在互联网领域有着广泛的使用场景,它常常被用来进行商品、电影和图书等物品推荐(Karimietal2018)。近邻推荐的潜在假设为:两个动作相似性越接近的物体更可能具有相似的动作或性质。根据该假设,在构建近邻推荐推行之前,本研究分别对五种药物组合Tanimoto系数进行正负样本差异性分析,即使用学生氏t检验(Student’st-test)(Hungetal2005)和Kolmogorov-Smirnov检验(KS-test)(RazaliandWah2011)分析正负样本之间相似性的差异从而预估使用本研究数据所建立的近邻推荐模型的优劣,即如果不同相似性正样本相似性显著的高于负样本相似性,那么该相似性更能区分正负样本特性从而获得更加优秀的预测模型。因此使用两种差异分析算法为后续特征筛选提供先验知识。T检验是用T分布理论来判断两组数据之间的差异,是由戈斯特为了控制啤酒质量监控的成本而发明的方法。T检验可分为单总体检验、双总体检验以及配对样本检验,本研究使用的是双总体检验方法,用以检查两组非相关样本数据之间的差异性,该检验的统计量计算方法为:
本文编号:3521901
本文链接:https://www.wllwen.com/projectlw/hxgylw/3521901.html