当前位置:主页 > 科技论文 > 软件论文 >

基于集成学习的化合物肝毒性分类预测系统的设计与实现

发布时间:2020-11-03 09:53
   在药物的研发过程中,通常要考虑药物的吸收、分布、代谢、排泄和毒性五个特征,其中毒性主要包括致癌性、致畸性、致突变性和肝毒性等重要特性。肝脏作为人体的重要器官,对有害物质特别敏感,在新陈代谢中起着关键作用。同时,药物诱导的肝损伤则是药物研发失败和被市场撤回的主要原因之一。因此,对化合物肝毒性的研究有着十分深刻的意义。研究肝毒性的传统方法包括体内和体外方法,但这些方法通常伴随着过程复杂、耗时长、成本高昂并且成功率低的缺点。随着传统方法弊端愈发显著和计算机技术的飞速发展,越来越多的毒理学研究者开始利用计算机模拟方法对肝毒性进行评估。通过计算机对肝毒性进行评估,即在一定量的数据集的基础上利用机器学习的方法对化合物的分子结构进行建模评估,具有快速、经济和易于实现的特点,被认为是肝毒性筛查的重要替代技术。本系统建模过程主要依托R语言进行计算,以从各文献和各药物组织搜集的大量化合物及其肝毒性作为数据支撑,将支持向量机(SVM)、随机森林(RF)和极限梯度提升(XGB)三种机器学习算法为基算法,对化合物的12种分子指纹分别建模共形成36个基模型,而后通过对这36个模型进行混合集成选出表现最佳的模型。最后得到的表现最好的模型的五折交叉验证结果的准确率为71.1±2.6%,AUC值为76.4±2.6%,在外部测试集中准确率为84.3%,AUC值为90.4%,达到肝毒性测试领域很高的水平。本系统的搭建在Linux操作系统下进行,前端由Html+Css+JavaScript建立,后台使用Apache+PHP+MYSQL环境,利用集成的最佳模型对输入化合物的肝毒性进行预测,并实现了注册登录模块、数据准备模块、分类预测模块、结果分析模块和系统管理模块。不仅能将分析结果清晰地展示在系统中,并能为用户包括提供结果查询、结果下载和用户管理等功能,极大地方便了肝毒性研究者。无论在功能方面还是在性能方面均达到预期的水平。
【学位单位】:辽宁大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.52
【部分图文】:

过程图,药物开发,过程图


毒性)五个特征,其目的在于指导化合物在药物临床研究中的利用并降低药物的副作用[1-2]。而在这五个特性中的毒性作用往往会对患者造成极大的身体伤害,严重时甚至造成一定的社会恐慌,它主要包括致癌性、致畸性、致突变性和肝毒性等。而肝脏作为人体的一个关键器官,对有害化学物质非常敏感,因此在外源物质的代谢中起重要作用。与此同时,药物诱导的肝损伤(Drug-induced liveinjury, DILI)也是药物开发失败和从市场被撤回的主要原因之一,并造成相当的经济损失。近年来,致力于毒理学研究的从业者对于化合物毒性的评估愈发关注在过去几十年中,已经开发了多种方法来评估 DILI 风险,其中包括体内研究和体外研究的传统实验方法。然而,这些传统的实验方法在具体的实现过程中非常昂贵并且耗时,此外实验结果与临床观察之间的相关性也不高,发现具有相当稳定性和良好活性的化合物几率不大,甚至由于部分实验数据需取自人体相关实验,涉及到道德问题,极大地限制了毒性的大规模检测,只能针对很少一部分的化合物进行检测,有很大的局限性。一般的,据有关部门统计,一个药物从研发到上市平均需要 13 年,花费约 18 亿美元,其过程中浪费了大量的时间和精力。药物开发过程如图 1-1 所示。

过程图,模型应用,过程,生物活性


程中计算更加高效,本研究使用了 R 语言。在系统的搭建过程中,采用了软件工程的思想,按照软件开发周期的流程进行系统设计和开发,本系统基于 Linux 系统和 Apache 服务器,前端使用Html+Css+JavaScript 常用组合,并采用了 Bootstrap 前端框架使得页面更加友好简洁,后台使用 PHP 语言进行开发,结合 MySQL 数据库对数据进行存储,使得系统尽可能完整完善。2.1 定量构效关系(QSAR)定量构效关系是使用数学或者计算机模型来描述化合物的分子结构与生物活性之间的关系[9]。其基于的原理是化合物的分子结构包含了决定其生物、化学和物理等方面的性质信息,而这些与化合物的生物活性紧密相关,结构相似的化合物往往在生物活性上体现出相似性。QSAR 模型将一组预测变量(X)和相应变量(Y)的值相关联,在建模过程中,预测变量可以是化合物的分子描述符(moleculardescriptors)、分子指纹(molecularfingerprints)或者其他理化性质,而响应变量则指化学物质对某一靶点的生物活性情况。QSAR 的过程如图 2-1。

相关过程,线性,超平面


图 2-2 线性 SVM 相关过程过使用一个核函数,将输入数据的特征映间中构造一个超平面或一组超平面,以分离征向量x,使用f(x) = sign(∑ αin0i=1yiK(x,xi最大化拉格朗日表达式∑ ai12ni=1∑ ∑ nj=ni=1= 0的条件下确定。f(x)结果的正负反映了函数来将特征映射到高维[14]。此外,SVM参数 C 和核宽度参数 gamma 通常通过随机F)统计学习理论,利用了集成的思想,使用
【参考文献】

相关期刊论文 前10条

1 罗丹;罗海勇;;基于随机森林的跌倒检测算法[J];计算机应用;2015年11期

2 李金亮;李春青;;基于BootStrap的WEB开发设计研究[J];中小企业管理与科技(中旬刊);2014年05期

3 张哲;张豪;;浅谈R语言在生物统计学教学中的应用[J];教育教学论坛;2013年27期

4 王云;;Web网站功能及性能测试探析[J];电子设计工程;2012年20期

5 孙星;;浅谈PHP技术[J];中国新技术新产品;2011年10期

6 张宏升;;软件架构的非功能性需求指标和区域化支持[J];电脑知识与技术;2011年09期

7 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期

8 王凯;阎爱侠;;基于因特网的常用化合物活性数据库简介[J];计算机与应用化学;2010年12期

9 廖明阳;吴纯启;;药物毒理学研究的发展现状与趋势[J];毒理学杂志;2007年05期

10 侯金彪;胡凯;王文博;;PHP中session变量的应用研究[J];科技信息(学术研究);2007年27期


相关博士学位论文 前2条

1 黄剑平;药物毒性预测方法研究[D];浙江大学;2014年

2 李加忠;QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用[D];兰州大学;2009年


相关硕士学位论文 前4条

1 方超;基于Web的动漫素材共享平台的设计与实现[D];厦门大学;2014年

2 黄浪;企业级的B/S模式应用软件非功能性需求分析与研究[D];厦门大学;2008年

3 张立坤;科技文档中化学结构的描述与搜索[D];华中科技大学;2007年

4 孙涛;UI的设计与测试[D];天津大学;2006年



本文编号:2868426

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2868426.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e3411***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com