基于广义溶剂化自由能理论的蛋白质结构模型评估
发布时间:2021-10-13 19:00
蛋白结构预测是当前计算生物学以及生物信息学领域最具代表性和影响力的研究方向之一。蛋白质结构模型评估一般是蛋白质三级结构预测和蛋白质设计的最终步骤,它负责从大量候选结构中筛选出更接近于真实结构的结果。目前蛋白质结构模型评估主要有两种思路:“基于知识的”(KB)和“基于物理的”(PB)。传统的“基于物理的”模型的性能并没有那么有效。我们提出了一种广义溶剂化自由能框架,主要思想是将给定复杂系统的每个基本物理组成单元定义为溶质,并将其所有周围单元定义为其特定溶剂。它本质上可以灵活地用于多尺度,并且适合于机器学习的实施。Cullpdb数据集生成于2018.11.26,其中任意两条序列的相似性小于25%,分辨率小于2.0埃并且R-factor小于0.25。我们从PDB数据库中下载其中的8129条数据,作为原始数据集。本文分别将蛋白质的氨基酸序列中氨基酸二体和氨基酸三体视为溶质单位。在已下载的数据中,通过定义溶质单位的特定溶剂环境,利用python中的biopython库来处理PDB数据,提取并计算相关数据作为溶剂特征,包括代表溶质单位与溶剂环境相对位置6个夹角,溶质单位与溶剂环境的空间距离,以及溶...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 引言
1.2 蛋白质结构
1.3 蛋白质结构数据库
1.4 蛋白质结构预测
1.5 广义溶剂化自由能
1.6 本章小结
第2章 分类器设计
2.1 引言
2.2 神经网络
2.2.1 激活函数
2.2.2 损失函数
2.2.3 随机梯度下降
2.3 Softmax
2.4 Hierarchical softmax
2.4.1 哈夫曼树和哈夫曼编码
2.4.2 Hierarchical softmax算法
2.5 神经网络性能评价
2.6 本章小结
第3章 数据处理及模型训练
3.1 引言
3.2 特征提取
3.2.1 单个氨基酸特征提取
3.2.2 氨基酸二体特征提取
3.2.3 氨基酸三体特征提取
3.3 模型搭建
3.3.1 二体预测模型
3.3.2 三体预测模型
3.4 本章小结
第4章 结果与讨论
4.1 原始数据集
4.2 单个氨基酸特征提取结果
4.3 氨基酸二体模型训练结果
4.4 氨基酸三体模型训练结果
4.5 本章小结
第5章 结论
参考文献
作者简介
致谢
【参考文献】:
期刊论文
[1]基于人工神经网络的综合负荷模型[J]. 王立德,李欣然,李培强,陈辉华,宋军英. 电网技术. 2008(16)
[2]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
本文编号:3435232
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 引言
1.2 蛋白质结构
1.3 蛋白质结构数据库
1.4 蛋白质结构预测
1.5 广义溶剂化自由能
1.6 本章小结
第2章 分类器设计
2.1 引言
2.2 神经网络
2.2.1 激活函数
2.2.2 损失函数
2.2.3 随机梯度下降
2.3 Softmax
2.4 Hierarchical softmax
2.4.1 哈夫曼树和哈夫曼编码
2.4.2 Hierarchical softmax算法
2.5 神经网络性能评价
2.6 本章小结
第3章 数据处理及模型训练
3.1 引言
3.2 特征提取
3.2.1 单个氨基酸特征提取
3.2.2 氨基酸二体特征提取
3.2.3 氨基酸三体特征提取
3.3 模型搭建
3.3.1 二体预测模型
3.3.2 三体预测模型
3.4 本章小结
第4章 结果与讨论
4.1 原始数据集
4.2 单个氨基酸特征提取结果
4.3 氨基酸二体模型训练结果
4.4 氨基酸三体模型训练结果
4.5 本章小结
第5章 结论
参考文献
作者简介
致谢
【参考文献】:
期刊论文
[1]基于人工神经网络的综合负荷模型[J]. 王立德,李欣然,李培强,陈辉华,宋军英. 电网技术. 2008(16)
[2]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
本文编号:3435232
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3435232.html