基于深度学习的化合物逆合成系统设计与实现
发布时间:2021-03-02 06:14
逆合成分析系统在药物设计和材料应用等诸多领域有着重要作用,从20世纪中期开始越来越多的研究者投入到该领域的研究中。近年来深度学习的迅猛发展给许多领域都带来了里程碑式的提升,其中处理欧几里德数据的图神经网络自2009年首次提出后,至今有了长足的发展。而化学分子是典型的图结构数据,以往的逆合成分析系统或是基于规则的专家系统或是基于传统神经网络模型,本文尝试以图神经网络为基础并结合最近新发布的化学分子开源处理工具来对化学分子进行处理。同时受轰动一时的AlphaGo启发,利用蒙特卡洛树搜索技术在庞大的分解树空间中找到一条满足需要的逆分解路径,并达到一种计算资源开销与搜索效果的平衡。本文最终实现了整体系统并对两部分方法进行了测试,全文主要研究内容如下。设计并实现单步逆分解方法,这是整个逆合成系统的基础部分。该方法以图神经网络为核心,输入一个目标分子,最终得到该目标分子适用的反应模板列表。此方法仍以化学规则为基础,但是规则不再是由人工编码而是由开源工具根据进行过原子序号匹配的反应自动提取。以规则为基础的模型执行逆分解得到的分子能够比较好地避免出现不符合化学规律的“错误”分子的情况。同时使用图神经网...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
逆分解方案演示图
第二章相关理论与技术图2-3蒙特卡洛树主要步骤图和对少数模拟移动的探索,这二者中保持某种平衡。第一个在游戏中平衡利用与探索的公式被称为UCT(UpperConfidenceBoundstoTrees,上限置信区间算法),由匈牙利国家科学院计算机与自动化研究所高级研究员列文特·科奇什与阿尔伯塔大学全职教授乔鲍·塞派什瓦里提出[22]。UCT基于奥尔(Auer)、西萨-比安奇(Cesa-Bianchi)和费舍尔(Fischer)提出的UCB1公式[25],并首次由马库斯等人应用于多级决策模型(具体为马尔可夫决策过程)[26]。科奇什和塞派什瓦里建议选择游戏树中的每个结点移动,从而使表达式wini+clnTni最大值。在该式中:wi代表第次移动后取胜的次数ni代表第次移动后仿真的次数c为探索参数—理论上等于√2,在实际中通常可凭经验选择t代表仿真总次数,等于所有ni的和大多数当代蒙特卡洛树搜索的实现都是基于UCT的一些变形。2.5计算机化学相关工具包2.5.1RDKITRDKIT[27]是计算机化学领域使用最为广泛的工具包之一,它对Python语言支持良好。在后续阶段需要RDKIT来将SMILES字符串转化内部的mol结构类型。mol结构类型可以进行SMILES格式的读取与输出,并且能够获取规范smiles,19
第三章单步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1这种简化之后的反应除去了显式的氢原子和原子序号,但分支结构、环信息和芳香性等都保留了下来,因而可读性更强。使用OpenBabelGui工具将上述反应图形表示的结果如图3-1。图3-1反应过程展示图在不失一般性的情况下,我们只考虑多个反应物得到一个产物的反应数据,因为多个反应物得到多个产物的反应可以分解为上述情况的叠加。文中使用的整个数据集大约包含5万条这种格式的反应,主要集中在有机化学范畴中。从数据量的角度来说5万条数据能够比较好地支撑后续工作的开展,但并不保证涵盖所有常用的有机合成反应。3.1.1反应数据的选取原则有了足够多类似图3-1中的正向反应之后,目前能实现的也仅仅是利用RDKIT和Indigo等开源工具进行反应物到产物的转换,这种转换我们称作正向转换。要实现逆合成分解的另一个基础是能够进行产物到一个或多个反应物的转换,类似地这种转换我们称之为逆向转换。23
【参考文献】:
期刊论文
[1]科技政策库的系统集成与建设[J]. 武虹,杨宝龙,杜治高,李涵露. 计算机系统应用. 2019(07)
[2]科里教授和逆合成分析法[J]. 张霁. 化学教育. 1992(01)
[3]科里教授的合成艺术——兼述逆合成分析原理[J]. 张霁,尹承烈. 化学通报. 1991(09)
本文编号:3058765
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
逆分解方案演示图
第二章相关理论与技术图2-3蒙特卡洛树主要步骤图和对少数模拟移动的探索,这二者中保持某种平衡。第一个在游戏中平衡利用与探索的公式被称为UCT(UpperConfidenceBoundstoTrees,上限置信区间算法),由匈牙利国家科学院计算机与自动化研究所高级研究员列文特·科奇什与阿尔伯塔大学全职教授乔鲍·塞派什瓦里提出[22]。UCT基于奥尔(Auer)、西萨-比安奇(Cesa-Bianchi)和费舍尔(Fischer)提出的UCB1公式[25],并首次由马库斯等人应用于多级决策模型(具体为马尔可夫决策过程)[26]。科奇什和塞派什瓦里建议选择游戏树中的每个结点移动,从而使表达式wini+clnTni最大值。在该式中:wi代表第次移动后取胜的次数ni代表第次移动后仿真的次数c为探索参数—理论上等于√2,在实际中通常可凭经验选择t代表仿真总次数,等于所有ni的和大多数当代蒙特卡洛树搜索的实现都是基于UCT的一些变形。2.5计算机化学相关工具包2.5.1RDKITRDKIT[27]是计算机化学领域使用最为广泛的工具包之一,它对Python语言支持良好。在后续阶段需要RDKIT来将SMILES字符串转化内部的mol结构类型。mol结构类型可以进行SMILES格式的读取与输出,并且能够获取规范smiles,19
第三章单步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1这种简化之后的反应除去了显式的氢原子和原子序号,但分支结构、环信息和芳香性等都保留了下来,因而可读性更强。使用OpenBabelGui工具将上述反应图形表示的结果如图3-1。图3-1反应过程展示图在不失一般性的情况下,我们只考虑多个反应物得到一个产物的反应数据,因为多个反应物得到多个产物的反应可以分解为上述情况的叠加。文中使用的整个数据集大约包含5万条这种格式的反应,主要集中在有机化学范畴中。从数据量的角度来说5万条数据能够比较好地支撑后续工作的开展,但并不保证涵盖所有常用的有机合成反应。3.1.1反应数据的选取原则有了足够多类似图3-1中的正向反应之后,目前能实现的也仅仅是利用RDKIT和Indigo等开源工具进行反应物到产物的转换,这种转换我们称作正向转换。要实现逆合成分解的另一个基础是能够进行产物到一个或多个反应物的转换,类似地这种转换我们称之为逆向转换。23
【参考文献】:
期刊论文
[1]科技政策库的系统集成与建设[J]. 武虹,杨宝龙,杜治高,李涵露. 计算机系统应用. 2019(07)
[2]科里教授和逆合成分析法[J]. 张霁. 化学教育. 1992(01)
[3]科里教授的合成艺术——兼述逆合成分析原理[J]. 张霁,尹承烈. 化学通报. 1991(09)
本文编号:3058765
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3058765.html