变量筛选新方法及其在环境内分泌干扰效应QSAR中的应用
发布时间:2020-09-29 18:21
随着分子结构表征技术的发展,如何从大量描述子中筛选具有良好稳定性和预测能力的子集已经成为制约QSAR研究的一个瓶颈问题。尽管随机型的筛选方法理论上可以达到此目的,但是其算法原理决定了其无法保证找到最优子集。基于全回归(all-subsets regression, ASR)的方法可以获得全局最优子集,但是不能处理大变量集。为保证QSAR模型的稳定性,通常采用LMOCV(leave-multiple-out cross validation)的相关系数为变量筛选的目标函数。但是LMOCV样本分组方式太多,如何选择合理的样本分组方式并确定最小验证次数是目前LMOCV应用亟待解决的难题。本论文针对以上难题,提出了变量筛选和模型验证新方法,将其与分子模拟手段相结合,建立新型的QSAR建模技术,并将其应用到污染物环境内分泌干扰效应QSAR研究中。 1.提出并建立基于变量相互作用变量筛选方法和均匀设计交叉验证方法 本文结合前进法、VSMP法和数据分组处理的优点构造了一种新的变量筛选方法——基于变量相互作用的变量筛选方法(Variable Selection Method based on Variable Interaction, VSMVI)。该方法需要计算的子集与VSMP相比大幅度减少,待筛变量数越多,VSMVI优势越明显。经Selwood标准数据集测试,结果表明VSMVI方法能够快速有效地从大变量集中找到最优子集。基于均匀试验设计能够以最少的试验次数获得最大信息量的特点,将样本编号当作因素水平,不同的因素当作不同LMOCV分组方式,建立了均匀设计交叉验证(Uniform Design Cross Validation, UDCV)方法。将UDCV结合VSMVI方法进行变量筛选,并与蒙特卡罗验证方法(MCCV)方法比较,证实了其有效性。 2. VSMVI-UDCV方法在污染物内分泌干扰效应QSAR研究中的应用 选择了污染物基于四种典型核受体介导的内分泌干扰效应为研究对象,采用E-Dragon描述子表征分子结构,采用VSMVI-UDCV方法筛选最优子集并构建了QSAR预测模型,通过对于模型应用域异常点的分子对接研究,进一步验证了模型应用域的有效性。 (1)基于雌激素受体介导的内分泌干扰效应QSAR研究 通过对两组结构复杂多样的环境雌激素的QSAR模型研究,证明了新构建的VSMVI和UDCV方法的有效性,对于130个化合物8参数QSAR模型的γ2、UDCV相关系数qUDCV2矿和LOOCV相关系数qLOOCV2分别0.7370,0.6376和0.6990,2个外部样本的预测相关系数rpre2分别为0.6815和0.5250。38个化合物的5参数QSAR模型r2为0.8339,UDCV和LOOCV的相关系数(qUDCV2和qtLOOCV2)分别为0.7679和0.7702,rpre2为0.7872。分子对接显示模型应用域定义的Williams图中异常点源于污染物特征结构所决定的其与雌激素受体结合模式的差异,而化合物点在X方向的集中趋势源于ER结合位点紧凑的疏水口袋。建模结果表明分子形状和分子结构是否有利于氢键的形成是化合物雌激素效应最主要的影响因素。 (2)基于雄激素受体和孕激素受体介导的内分泌干扰效应的QSAR研究 雄激素受体和孕激素受体三维结构十分相似,其巨大的疏水口袋决定了其具有较低的配体选择性。通过对多组结构复杂多样的环境雄/孕激素的QSAR模型研究,证明了新构建的VSMVI和UDCV方法对这一类型受体介导的效应一样有效。对于118个类雄激素化合物7参数QSAR模型的r2、qUDCV2和qLOOCV2分别0.6866,0.6422和0.6620,rpre2为0.5825。58个四氢苯并呋喃酮的QSAR模型,模型也具有良好的拟合能力(r2=0.7861)和预测能力(qUDCV2=0.5407, qLOOCV2=0.7127和rpre2=0.4966);43个类固醇化合物孕激素效应的MLR相应的统计参数为r2=0.8715,qudcv2=0.7493,qLOOCV2=0.7915,rpre2=0.6686。分子对接显示模型应用域定义的Williams图中异常点源于污染物结构多样性所决定的其与受体结合模式的多态性,而雄激素受体和孕激素受体相对松弛的结合口袋导致了化合物点在X方向的分散趋势。建模结果表明化合物分子形状、大小和电荷分布是影响雄激素效应的关键因素,而分子形状大小和空间结构是56类固醇化合物孕激素效应的最主要影响因素。 (3)基于过氧化物酶体增殖因子活化受体介导的内分泌干扰效应QSAR研究 过氧化物酶体增殖因子活化受体与雌激素、雄激素和孕激素受体结构不同,具有Y型结合位点特征,因此所建模型应用域定义的Williams图中化合物点在X方向较分散。通过对过氧化物酶体增殖因子活化受体激动剂结合效应和转活效应的QSAR模型研究,证明了新构建的VSMVI和UDCV方法对此受体介导的效应一样有效。10参数结合效应QSAR模型的r2、qUDCV2和qLOOCV2分别0.8321,0.7450和0.7900,rpre2为0.5565;14参数转活效应QSAR模型的r2、qUDCV2和qLoocv分别0.6699,0.4512和0.5837,rpre2为0.3086。
【学位单位】:南京大学
【学位级别】:博士
【学位年份】:2012
【中图分类】:X830
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 模型验证与变量筛选是QSAR研究的瓶颈之一
1.1.1 分子结构描述子
1.1.2 建模方法
1.1.3 变量筛选方法
1.1.4 交叉验证方法
1.2 污染物内分泌干扰效应仍是环境毒理研究的重点
1.2.1 内分泌干扰物的危害
1.2.2 核受体介导的内分泌干扰效应
1.3 预测内分泌干扰效应的QSAR模型有待加强
参考文献
第二章 变量筛选和模型验证新方法的建立
2.1 多元线性回归方法
2.2 MLR模型中的常用统计量
2.3 标准回归系数
2.4 变量预筛选
2.5 模型验证
2.5.1 LOOCV
2.5.2 LMOCV
2.5.3 MCCV
2.5.4 UDCV
2.5.5 y-randomization检验
2.5.6 y-scrambling检验
2.6 基于变量相互作用的变量选择方法
2.7 模型的应用域与OECD原则
2.8 描述子计算
2.9 VSMVI和UDCV方法的性能测试
2.9.1 VSMVI方法性能测试
2.9.2 均匀设计表试验点的均衡分散性
2.9.3 UDCV用于变量筛选
2.10 总结
参考文献
第三章 环境雌激素效应的QSAR研究
3.1 引言
3.2 130个化合物的环境雌激素效应QSAR研究
3.2.1 数据来源
3.2.2 分子结构描述符
3.2.3 结果与讨论
3.2.3.1 模型建立
3.2.3.2 模型偶然相关验证
3.2.3.3 模型外部检验
3.2.3.4 模型的应用域与离群值
3.2.3.5 模型描述子解释
3.2.3.6 模型比较
3.2.4 结论
3.3 58个化合物的环境雌激素效应QSAR研究
3.3.1 数据来源
3.3.2 分子结构描述符
3.3.3 结果与讨论
3.3.3.1 模型建立
3.3.3.2 模型偶然相关验证
3.3.3.3 模型外部检验
3.3.3.4 模型的应用域与离群值
3.3.3.5 模型描述子的解释
3.3.4 结论
3.4 本章总结
参考文献
第四章 环境雄激素效应的QSAR研究
4.1 引言
4.2 146个化合物的环境雄激素效应QSAR研究
4.2.1 数据来源
4.2.2 分子结构描述符计算
4.2.3 146个化合物建模
4.2.3.1 模型建立
4.2.3.2 模型偶然相关验证
4.2.3.3 模型外部样本检验
4.2.3.4 模型的应用域与离群值
4.2.3.5 模型描述子解释
4.2.4 118个化合物建模
4.2.4.1 模型建立
4.2.4.2 模型偶然相关检验
4.2.4.3 模型外部样本检验
4.2.4.4 模型应用域和离群值
4.2.4.5 模型描述子解释
4.2.5 模型比较
4.3 146个化合物环境雄激素效应的DFT参数QSAR研究
4.3.1 DFT量子化学参数
4.3.2 全部化合物建模
4.3.2.1 模型建立
4.3.2.2 模型偶然相关检验
4.3.2.3 模型外部样本检验
4.3.2.4 模型应用域与离群值
4.3.3 化合物分组建模
4.3.3.1 模型建立
4.3.3.2 模型偶然相关检验
4.3.3.3 外部样本检验
4.3.4.4 模型应用域与离群值
4.3.5 模型描述子解释
4.3.6 模型对比
4.4 本章总结
参考文献
第五章 孕激素效应的QSAR研究
5.1 引言
5.2 87个化合物的孕激素效应QSAR建模
5.2.1 数据来源
5.2.2 描述子计算及预处理
5.2.3 结果与讨论
5.2.3.1 模型建立
5.2.3.2 模型验证
5.2.3.3 模型定义域与离群值
5.2.3.4 描述子解释
5.2.4 结论
5.3 56个类固醇的孕激素效应QSAR建模
5.3.1 数据来源
5.3.2 描述子计算及预筛选
5.3.3 结果与讨论
5.3.3.1 模型建立
5.3.3.2 模型验证
5.3.3.3 模型应用域和离群值
5.3.3.4 描述子解释
5.3.3.5 模型比较
5.3.4 结论
5.4 本章总结
参考文献
第六章 PPAR_γ激动剂的亲合与转活效应QSAR研究
6.1 引言
6.2 144个PPAR_γ激动剂的亲合效应QSAR研究
6.2.1 数据来源
6.2.2 描述子计算和与预筛选
6.2.3 结果与讨论
6.2.3.1 模型建立
6.2.3.2 模型偶然相关验证
6.2.3.3 模型的外部验证
6.2.3.4 模型应用域与离群值
6.2.3.5 模型描述子解释
6.2.3.6 活性-活性相关分析
6.2.3.7 模型比较
6.3 结论
参考文献
创新点
攻读博士学位期间完成的工作
参加的科研项目
致谢
本文编号:2830086
【学位单位】:南京大学
【学位级别】:博士
【学位年份】:2012
【中图分类】:X830
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 模型验证与变量筛选是QSAR研究的瓶颈之一
1.1.1 分子结构描述子
1.1.2 建模方法
1.1.3 变量筛选方法
1.1.4 交叉验证方法
1.2 污染物内分泌干扰效应仍是环境毒理研究的重点
1.2.1 内分泌干扰物的危害
1.2.2 核受体介导的内分泌干扰效应
1.3 预测内分泌干扰效应的QSAR模型有待加强
参考文献
第二章 变量筛选和模型验证新方法的建立
2.1 多元线性回归方法
2.2 MLR模型中的常用统计量
2.3 标准回归系数
2.4 变量预筛选
2.5 模型验证
2.5.1 LOOCV
2.5.2 LMOCV
2.5.3 MCCV
2.5.4 UDCV
2.5.5 y-randomization检验
2.5.6 y-scrambling检验
2.6 基于变量相互作用的变量选择方法
2.7 模型的应用域与OECD原则
2.8 描述子计算
2.9 VSMVI和UDCV方法的性能测试
2.9.1 VSMVI方法性能测试
2.9.2 均匀设计表试验点的均衡分散性
2.9.3 UDCV用于变量筛选
2.10 总结
参考文献
第三章 环境雌激素效应的QSAR研究
3.1 引言
3.2 130个化合物的环境雌激素效应QSAR研究
3.2.1 数据来源
3.2.2 分子结构描述符
3.2.3 结果与讨论
3.2.3.1 模型建立
3.2.3.2 模型偶然相关验证
3.2.3.3 模型外部检验
3.2.3.4 模型的应用域与离群值
3.2.3.5 模型描述子解释
3.2.3.6 模型比较
3.2.4 结论
3.3 58个化合物的环境雌激素效应QSAR研究
3.3.1 数据来源
3.3.2 分子结构描述符
3.3.3 结果与讨论
3.3.3.1 模型建立
3.3.3.2 模型偶然相关验证
3.3.3.3 模型外部检验
3.3.3.4 模型的应用域与离群值
3.3.3.5 模型描述子的解释
3.3.4 结论
3.4 本章总结
参考文献
第四章 环境雄激素效应的QSAR研究
4.1 引言
4.2 146个化合物的环境雄激素效应QSAR研究
4.2.1 数据来源
4.2.2 分子结构描述符计算
4.2.3 146个化合物建模
4.2.3.1 模型建立
4.2.3.2 模型偶然相关验证
4.2.3.3 模型外部样本检验
4.2.3.4 模型的应用域与离群值
4.2.3.5 模型描述子解释
4.2.4 118个化合物建模
4.2.4.1 模型建立
4.2.4.2 模型偶然相关检验
4.2.4.3 模型外部样本检验
4.2.4.4 模型应用域和离群值
4.2.4.5 模型描述子解释
4.2.5 模型比较
4.3 146个化合物环境雄激素效应的DFT参数QSAR研究
4.3.1 DFT量子化学参数
4.3.2 全部化合物建模
4.3.2.1 模型建立
4.3.2.2 模型偶然相关检验
4.3.2.3 模型外部样本检验
4.3.2.4 模型应用域与离群值
4.3.3 化合物分组建模
4.3.3.1 模型建立
4.3.3.2 模型偶然相关检验
4.3.3.3 外部样本检验
4.3.4.4 模型应用域与离群值
4.3.5 模型描述子解释
4.3.6 模型对比
4.4 本章总结
参考文献
第五章 孕激素效应的QSAR研究
5.1 引言
5.2 87个化合物的孕激素效应QSAR建模
5.2.1 数据来源
5.2.2 描述子计算及预处理
5.2.3 结果与讨论
5.2.3.1 模型建立
5.2.3.2 模型验证
5.2.3.3 模型定义域与离群值
5.2.3.4 描述子解释
5.2.4 结论
5.3 56个类固醇的孕激素效应QSAR建模
5.3.1 数据来源
5.3.2 描述子计算及预筛选
5.3.3 结果与讨论
5.3.3.1 模型建立
5.3.3.2 模型验证
5.3.3.3 模型应用域和离群值
5.3.3.4 描述子解释
5.3.3.5 模型比较
5.3.4 结论
5.4 本章总结
参考文献
第六章 PPAR_γ激动剂的亲合与转活效应QSAR研究
6.1 引言
6.2 144个PPAR_γ激动剂的亲合效应QSAR研究
6.2.1 数据来源
6.2.2 描述子计算和与预筛选
6.2.3 结果与讨论
6.2.3.1 模型建立
6.2.3.2 模型偶然相关验证
6.2.3.3 模型的外部验证
6.2.3.4 模型应用域与离群值
6.2.3.5 模型描述子解释
6.2.3.6 活性-活性相关分析
6.2.3.7 模型比较
6.3 结论
参考文献
创新点
攻读博士学位期间完成的工作
参加的科研项目
致谢
【参考文献】
相关期刊论文 前10条
1 易忠胜,刘树深,李岗,杨万平;一种改良BP网络方法研究[J];桂林工学院学报;1998年04期
2 张信连,杨维东,刘洁生;环境内分泌干扰物对生物和人体健康的影响[J];国外医学(临床生物化学与检验学分册);2005年06期
3 伍吉云,万yN,胡建英;环境中内分泌干扰物的作用机制[J];环境与健康杂志;2005年06期
4 任晋,蒋可;内分泌干扰剂的研究进展[J];化学进展;2001年02期
5 史熊杰;刘春生;余珂;邓军;余丽琴;周炳升;;环境内分泌干扰物毒理学研究[J];化学进展;2009年Z1期
6 周景明,秦占芬,丛琳,徐晓白;多氯联苯内分泌干扰作用及机理研究进展[J];科学通报;2004年01期
7 薛南冬;王洪波;徐晓白;;水环境中农药类内分泌干扰物的研究进展[J];科学通报;2005年22期
8 刘先利,刘彬,邓南圣;环境内分泌干扰物研究进展[J];上海环境科学;2003年01期
9 岳瑞生;《关于就某些持久性有机污染物采取国际行动的斯德哥尔摩公约》及其谈判背景[J];世界环境;2001年01期
10 卫立;张洪昌;张爱茜;尹大强;;环境内分泌干扰物低剂量-效应研究进展[J];生态毒理学报;2007年01期
本文编号:2830086
本文链接:https://www.wllwen.com/shengtaihuanjingbaohulunwen/2830086.html