当前位置:主页 > 科技论文 > 环境工程论文 >

有机化合物对水生生物毒性的预测方法研究

发布时间:2021-10-14 13:48
  随着重工业以及水产养殖业的不断发展,大量的有机污染物进入到水环境中,对人类的健康以及水生系统造成了严重的危害。目前,机器学习方法可以有效地处理数据以及建立优质的模型。集成学习基于多个基分类器建立而成,它通常比任何单个模型的性能具有更好的预测能力。因此,本研究基于文献搜集筛选的实验数据,利用机器学习以及集成学习方法,对有机化合物的生物富集因子以及水生生物的急性毒性两个指标进行预测,进而分析有机化合物对水生生物的毒性机理。在评估有机污染物对水生生态系统造成的风险方面,生物富集因子和半数致死浓度(LC50s)是十分关键的参数。目前,已经开发了多种定量结构-活性关系(quantitative structure-activity relationships,QSAR)模型来预测生物富集因子以及对水生生物的急性毒性进行分类。在建立生物富集因子预测模型中,本文使用递归特征消除方法分别结合支持向量机和多元线性回归算法开发了回归模型。在回归模型中,本文从包含500种不同化合物的数据集中计算出2D分子描述符。在急性毒性的分类预测中,本文使用三种机器学习算法构建了三个集合模型,并且在... 

【文章来源】:辽宁大学辽宁省 211工程院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

有机化合物对水生生物毒性的预测方法研究


图2-1分类模型构建过程流程图

柱形图,准确率,图谱,集成模型


本研究也在图 2-3 中绘制了三种集成模型评价结果的柱形图。正如本章所期望的那样,三种集成模型的准确率以及 AUC 均高于同一种算法产生的 12 个基分类器。使用随机森林、支持向量机以及极限梯度提升算法产生的集成模型的准确率分别提高了 0.6%、1.2%和 1.3%,AUC 分别提高 0.001、0.009、0.007。很明显,在预测水生生物的急性毒性方面,利用集成方法所构建的模型具有一定的优势。表 2-5 集成模型在五折交叉验证以及外部验证中的预测性能Data set Ensemble models Acc (%) SE (%) SP (%) AUCTraining set Ensemble-RF 91.6 95.0 84.4 0.961Ensemble-SVM 92.2 95.1 86.0 0.965Ensemble-XGBoost 92.0 95.2 85.2 0.959Validation set Ensemble-RF 86.1 90.7 76.0 0.921Ensemble-SVM 87.3 92.6 76.0 0.940Ensemble-XGBoost 82.3 90.7 64.0 0.927Complete data set Ensemble-RF 95.8 97.8 91.4 0.991Ensemble-SVM 96.0 98.2 91.4 0.989Ensemble-XGBoost 95.3 98.2 89.1 0.991

集合模型,交叉验证,性能,集成模型


图 2-3 集合模型在五折交叉验证中的性能外,为了进一步评估本研究构建的集成模型的预测能力,集成模型行了外部验证。表 2-5 中,总结了不同集成模型在外部验证中的预明,无论是在五折交叉验证中,还是利用测试集进行外部le-SVM 模型的准确率以及 AUC 值都是最高的,准确率分别 AUC 值分别为 0.965 和 0.940。这表明 Ensemble-SVM 模型在水毒性预测中具备更加稳定、准确的分类性能。论类模型与以往方法比较过去几年,已经有学者针对水生生物的急性毒性开发了分类预测模

【参考文献】:
期刊论文
[1]零膨胀计数数据回归模型的选择与比较及R语言的实现[J]. 刘振球,严琼,左佳鹭,方绮雯,张铁军.  中国卫生统计. 2018(02)
[2]QSAR方法的研究进展及其应用[J]. 赵亚玲,黄方.  毒理学杂志. 2017(03)
[3]随机森林算法在生物信息学中的应用研究[J]. 冯洁.  电脑知识与技术. 2017(10)
[4]氯及溴代苯化合物生物富集因子预测[J]. 饶凡,黄茜,廖立敏.  河南师范大学学报(自然科学版). 2017(01)
[5]高维DNA甲基化数据的随机森林降维分析[J]. 张秋伊,赵杨,魏永越,张汝阳,陈峰.  中华疾病控制杂志. 2016(06)
[6]机器学习及其算法和发展研究[J]. 张润,王永滨.  中国传媒大学学报(自然科学版). 2016(02)
[7]基于随机森林算法对蛋白质相互作用的识别和预测[J]. 董婷.  自动化与仪器仪表. 2015(11)
[8]有机污染物在鱼体内临界浓度研究进展[J]. 邰红巍,闻洋,苏丽敏,赵元慧.  科学通报. 2015(19)
[9]回归模型筛选准则及方法比较研究[J]. 杨泱.  昆明理工大学学报(自然科学版). 2015(03)
[10]水生生物急性毒性QSAR模型研究进展[J]. 刘羽晨,乔显亮.  生态毒理学报. 2015(02)

博士论文
[1]基于组学数据的模拟空间环境健康监测及其应用研究[D]. 李旭.哈尔滨工业大学 2016
[2]有机污染物生物富集与鱼体内临界浓度关系的研究[D]. 闻洋.东北师范大学 2015
[3]基于OECD准则对QSAR/QSPR模型几个重要问题的研究[D]. 陈宪.中南大学 2013
[4]基于机器学习的A型流感病毒跨种传播和抗原关系预测研究[D]. 王佳.华中科技大学 2012
[5]计算机辅助药物和蛋白性质预测研究[D]. 席莉莉.兰州大学 2010
[6]QSAR研究在生命分析化学和环境化学中的应用[D]. 赵春燕.兰州大学 2006

硕士论文
[1]机器学习方法在生物信息学中的应用[D]. 杨闫.渤海大学 2014
[2]有机化学品鱼类生物富集因子QSAR模型的构建[D]. 郑玉婷.大连理工大学 2014
[3]化合物致突变预测模型以及定量回归工作流程的构建[D]. 徐聪颖.华东理工大学 2013
[4]半监督特征选择和特征选择的稳定性研究[D]. 陈东.上海交通大学 2013



本文编号:3436280

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/huanjinggongchenglunwen/3436280.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6c0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com