基于深度学习的药物靶标相互作用预测研究
发布时间:2021-07-15 21:55
药物治疗是治愈疾病的重要手段,药物与靶标蛋白的识别是当代新药研制的关键。但受到生物实验方法高通量、低精度和费用消耗大的限制,对大量的药物靶标相互作用验证具有一定程度的盲目性,使得其在实际应用中通常难以广泛开展。在信息科学推动下,机器学习、数据挖掘和数理统计等智能信息处理技术得到快速发展和应用。通过计算机模拟来预测药物与靶标蛋白间的相互作用关系,能够降低研发成本、缩短新药研制时间、减少新药研制的盲目性,对于新药研发和人类医疗的改善具有十分重要的意义。本文基于氨基酸序列的方法对药物靶标相互作用进行分类预测,分别提出药物化合物分子与蛋白质氨基酸序列数值化表征方法、基于蛋白质氨基酸序列信息特征提取方法和利用强大的深度学习模型对药物-靶标相互作用进行分类预测。首先,针对药物分子信息和蛋白质氨基酸信息都是以复杂字符存储于生物信息库中,无法直接作为特征向量输入到分类器,本文提出基于药物化合物分子指纹特征和基于得分特异性矩阵(PSSM矩阵)的蛋白质序列数值化表征方法,实现药物靶标数据的定量描述,保持其固有的生物属性。其次,针对基于蛋白质序列数值化特征存在噪声数据且维度大的问题,本文采用变分自动编码器算...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
药物靶标相互作用研究路线
2基于药物靶标序列的数值化表征方法9(2)定性类描述符:如同人的指纹一样,可以用来表示分子结构,性质等内在分子特征,所以也被称为分子指纹。本实验选择定性的分子指纹描述符作为药物化合物分子数值化表征的方法。分子指纹之所以成为目前最有效的药物数值化表征方法之一,是因为其能根据分子结构中的分子结构片段信息将分子结构转化为二进制的指纹特征,如图2-1所示。这种方法关键在于检测出药物化合物分子结构中的特定片段是否存在,然后通过散列算法或基于字典方式将特定片段编码为数字对应到二进制串中,从而将药物化合物分子数值化表征,形成有序的数字指纹序列。值得一提的是,结构相似的药物化合物分子很有可能具有相似的生物活性。图2-1药物分子指纹表征示意图Figure2-1DiagramofDrugsMolecularFingerprinting计算机算法通常使用二进制运算,因此分子指纹特征的表示也是将分子结构信息转换为二进制表达。常用的转换方法有两类:(1)借助字典以人工方法将分子结构数据上进行定义,找出对应的二进制;(2)散列指纹:借助Hash散列表将分子结构片段投影到二进制列表上,实现分子片段到二进制序列转换。首先利用试探算法对分子结构的字符编码进行搜索,将分子结构划分成分子结构片段,对其使用Hash算法获得散列表,将散列表上的结果映射到二进制对应位置上,由此获得分子结构的二进制表征。与人工字典的方法相比,Hash映射的方法不需要繁琐的分子结构定义就能够对所有分子片段编码。散列指纹转换过程如下:将化合物分子按照不同键长划分多个分子结构片段。以分子OC=CN为例,图2-2为划分成不同键长的分子结构子图。
工程硕士专业学位论文10图2-2OC=CN分子结构子图Figure2-2OC=CNMolecularStructureSubgraph对于实验中的药物化合物分子,由于结构复杂,所有键长的分子结构难以全部列出,每个分子结构也存在着大量的分子结构子图,因此需要对其生成的原子个数进行规定。一个包含个原子的药物分子结构需要根据每个原子之间的化学键及其相应的元素类别赋予不用的数值表示,其划分的分子结构图会产生2*-1个数值表示用于描述整个分子结构。将每个分子结构生成的数值描述借助Hash函数转换为一个整数,对除2取模生成0或者1,若生成数值为1则表明该分子片段存在对应指纹的分子结构子图,若数值为0则表示不存在分子结构子图。通过Hash函数将所有的分子结构图进行转换,由此生成由0和1组成的二进制序列。需要注意的是,由于药物化合物分子结构复杂,由散列指纹获得的药物分子数值表征二进制序列位数通常是8的倍数,在128到4096位之间,对大量的药物化合物分子进行数值表征时会占据大量的存储空间,因此常常转换为十六进制格式存储与文件中,在进行分子结构比较或者特征融合的实验时,将十六进制转换为四个二进制数即可进行计算。图2-3为药物分子结构及其散列指纹。图2-3分子结构及散列指纹Figure2-3Molecularstructureandhashfingerprint目前,Pubchem指纹、MACCS指纹、FP4指纹和Estate指纹是较为常用的分子指纹描述符。分子指纹描述符分为三个维度,三个维度上的分子指纹分别可以描述不同的分子结构性质:(1)一维分子描述符:用于描述如氢键受体数和供体数等分子片段[45];(2)二维分子描述符:用于描述如Zagreb指数和Wiener指数等分子拓扑
【参考文献】:
期刊论文
[1]卷积神经网络结构优化综述[J]. 林景栋,吴欣怡,柴毅,尹宏鹏. 自动化学报. 2020(01)
[2]基于VAE和GAN融合网络的mnist手写体数字图像生成方法[J]. 陈丽芳,芦国军. 廊坊师范学院学报(自然科学版). 2019(02)
[3]基于深度卷积神经网络的图像自编码算法[J]. 何奕江,杜军平,寇菲菲,梁美玉,王巍,罗盎. 山东大学学报(工学版). 2019(02)
[4]Faster R-CNN模型在车辆检测中的应用[J]. 王林,张鹤鹤. 计算机应用. 2018(03)
[5]从生物大数据到知识大发现:十年进展与未来展望[J]. 张学工,江瑞,汪小我,古槿,陈挺. 科学通报. 2016(36)
[6]卷积神经网络分类模型在模式识别中的新进展[J]. 胡正平,陈俊岭,王蒙,赵淑欢. 燕山大学学报. 2015(04)
博士论文
[1]基于相关向量机的蛋白质相互作用预测研究[D]. 安计勇.中国矿业大学 2018
[2]基于机器学习的药物—靶标相互作用预测研究[D]. 王磊.中国矿业大学 2018
[3]单链和双链DNA结合蛋白特征提取与分类研究[D]. 王伟.武汉大学 2014
[4]药物—靶标相互作用及药物对组合研究[D]. 赵明珠.上海交通大学 2013
[5]病毒—宿主蛋白质相互作用网络计算分析关键技术研究[D]. 李非.国防科学技术大学 2010
硕士论文
[1]基于VAE的条件生成式对抗网络模型研究[D]. 杨韶晟.吉林大学 2018
[2]基于变分自动编码器的特征表示学习研究及其应用[D]. 李明宇.哈尔滨工业大学 2018
[3]基于高斯混合模型的变分自动编码器[D]. 李鹏.哈尔滨工业大学 2017
本文编号:3286532
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
药物靶标相互作用研究路线
2基于药物靶标序列的数值化表征方法9(2)定性类描述符:如同人的指纹一样,可以用来表示分子结构,性质等内在分子特征,所以也被称为分子指纹。本实验选择定性的分子指纹描述符作为药物化合物分子数值化表征的方法。分子指纹之所以成为目前最有效的药物数值化表征方法之一,是因为其能根据分子结构中的分子结构片段信息将分子结构转化为二进制的指纹特征,如图2-1所示。这种方法关键在于检测出药物化合物分子结构中的特定片段是否存在,然后通过散列算法或基于字典方式将特定片段编码为数字对应到二进制串中,从而将药物化合物分子数值化表征,形成有序的数字指纹序列。值得一提的是,结构相似的药物化合物分子很有可能具有相似的生物活性。图2-1药物分子指纹表征示意图Figure2-1DiagramofDrugsMolecularFingerprinting计算机算法通常使用二进制运算,因此分子指纹特征的表示也是将分子结构信息转换为二进制表达。常用的转换方法有两类:(1)借助字典以人工方法将分子结构数据上进行定义,找出对应的二进制;(2)散列指纹:借助Hash散列表将分子结构片段投影到二进制列表上,实现分子片段到二进制序列转换。首先利用试探算法对分子结构的字符编码进行搜索,将分子结构划分成分子结构片段,对其使用Hash算法获得散列表,将散列表上的结果映射到二进制对应位置上,由此获得分子结构的二进制表征。与人工字典的方法相比,Hash映射的方法不需要繁琐的分子结构定义就能够对所有分子片段编码。散列指纹转换过程如下:将化合物分子按照不同键长划分多个分子结构片段。以分子OC=CN为例,图2-2为划分成不同键长的分子结构子图。
工程硕士专业学位论文10图2-2OC=CN分子结构子图Figure2-2OC=CNMolecularStructureSubgraph对于实验中的药物化合物分子,由于结构复杂,所有键长的分子结构难以全部列出,每个分子结构也存在着大量的分子结构子图,因此需要对其生成的原子个数进行规定。一个包含个原子的药物分子结构需要根据每个原子之间的化学键及其相应的元素类别赋予不用的数值表示,其划分的分子结构图会产生2*-1个数值表示用于描述整个分子结构。将每个分子结构生成的数值描述借助Hash函数转换为一个整数,对除2取模生成0或者1,若生成数值为1则表明该分子片段存在对应指纹的分子结构子图,若数值为0则表示不存在分子结构子图。通过Hash函数将所有的分子结构图进行转换,由此生成由0和1组成的二进制序列。需要注意的是,由于药物化合物分子结构复杂,由散列指纹获得的药物分子数值表征二进制序列位数通常是8的倍数,在128到4096位之间,对大量的药物化合物分子进行数值表征时会占据大量的存储空间,因此常常转换为十六进制格式存储与文件中,在进行分子结构比较或者特征融合的实验时,将十六进制转换为四个二进制数即可进行计算。图2-3为药物分子结构及其散列指纹。图2-3分子结构及散列指纹Figure2-3Molecularstructureandhashfingerprint目前,Pubchem指纹、MACCS指纹、FP4指纹和Estate指纹是较为常用的分子指纹描述符。分子指纹描述符分为三个维度,三个维度上的分子指纹分别可以描述不同的分子结构性质:(1)一维分子描述符:用于描述如氢键受体数和供体数等分子片段[45];(2)二维分子描述符:用于描述如Zagreb指数和Wiener指数等分子拓扑
【参考文献】:
期刊论文
[1]卷积神经网络结构优化综述[J]. 林景栋,吴欣怡,柴毅,尹宏鹏. 自动化学报. 2020(01)
[2]基于VAE和GAN融合网络的mnist手写体数字图像生成方法[J]. 陈丽芳,芦国军. 廊坊师范学院学报(自然科学版). 2019(02)
[3]基于深度卷积神经网络的图像自编码算法[J]. 何奕江,杜军平,寇菲菲,梁美玉,王巍,罗盎. 山东大学学报(工学版). 2019(02)
[4]Faster R-CNN模型在车辆检测中的应用[J]. 王林,张鹤鹤. 计算机应用. 2018(03)
[5]从生物大数据到知识大发现:十年进展与未来展望[J]. 张学工,江瑞,汪小我,古槿,陈挺. 科学通报. 2016(36)
[6]卷积神经网络分类模型在模式识别中的新进展[J]. 胡正平,陈俊岭,王蒙,赵淑欢. 燕山大学学报. 2015(04)
博士论文
[1]基于相关向量机的蛋白质相互作用预测研究[D]. 安计勇.中国矿业大学 2018
[2]基于机器学习的药物—靶标相互作用预测研究[D]. 王磊.中国矿业大学 2018
[3]单链和双链DNA结合蛋白特征提取与分类研究[D]. 王伟.武汉大学 2014
[4]药物—靶标相互作用及药物对组合研究[D]. 赵明珠.上海交通大学 2013
[5]病毒—宿主蛋白质相互作用网络计算分析关键技术研究[D]. 李非.国防科学技术大学 2010
硕士论文
[1]基于VAE的条件生成式对抗网络模型研究[D]. 杨韶晟.吉林大学 2018
[2]基于变分自动编码器的特征表示学习研究及其应用[D]. 李明宇.哈尔滨工业大学 2018
[3]基于高斯混合模型的变分自动编码器[D]. 李鹏.哈尔滨工业大学 2017
本文编号:3286532
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3286532.html