基于条件随机场与深度学习的蛋白质二级结构预测
发布时间:2021-04-28 05:05
随着生物信息学的发展,蛋白质数据库中的蛋白质序列信息越来越多,尤其是生物信息学的出现,使得人们能够更好地利用这些蛋白质信息了解生物系统。生物信息学可以利用这些序列信息寻找相关的蛋白质,并收集其他信息推测未知蛋白质的结构和功能等可能的特性。蛋白质结构分析预测也经常被用在药物设计中。通过实验方法获取蛋白质二级结构所需的成本高,专业人才紧缺,所以目前面临的核心问题就是利用生物信息学找到一种能够高效地预测蛋白质二级结构的算法。本文使用深度学习算法和条件随机场算法对蛋白质二级结构进行预测。在蛋白质数据处理中,本文用到了位置特异性矩阵(Position-Specific Scoring Matrix,PSSM),同时为了更好的表示氨基酸序列,使用了滑动窗口技术。在蛋白质二级结构预测算法方面,本文提出了两种学习分类方法:第一种是卷积神经网络结合Softmax分类器的算法,此方法改进了卷积神经网络的模型结构,针对梯度消失问题在各卷积层之后添加了修正线性单元(Rectified Linear Units,ReLU)激活层,为了最大限度地保留原始数据的重要特征,提取了全连接层之前的特征数据作为Softma...
【文章来源】:齐鲁工业大学山东省
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 研究现状
1.3.1 蛋白质二级结构预测相关基础
1.3.2 国内外相关技术发展现状
1.4 本文的研究内容和基本结构
1.4.1 研究内容
1.4.2 论文结构安排
第2章 蛋白质二级结构简介与相关预测方法
2.1 蛋白质简介
2.1.1 蛋白质结构分析
2.1.2 蛋白质的层次结构
2.1.3 蛋白质的结构与功能的关系
2.2 蛋白质二级结构预测有关技术
2.2.1 数据处理
2.2.2 特征提取和滑动窗口技术
2.2.3 蛋白质二级结构预测评价指标
2.3 蛋白质二级结构预测相关方法介绍
2.3.1 统计分析方法
2.3.2 基于知识分析方法
2.3.3 机器学习方法
2.4 蛋白质数据库介绍
2.5 本章小结
第3章 基于条件随机场的蛋白质二级结构预测
3.1 条件随机场原理
3.1.1 最大熵原理
3.1.2 隐马尔可夫原理
3.1.3 条件随机场模型
3.2 线性链条件随机场
3.3 条件随机场的基本算法
3.3.1 前向-后向算法
3.3.2 梯度下降法
3.3.3 维特比算法
3.4 实验工具介绍
3.5 实验及结果分析
3.5.1 数据集
3.5.2 实验过程
3.5.3 结果分析
3.6 本章小结
第4章 基于卷积神经网络的蛋白质二级结构预测
4.1 卷积神经网络原理及结构
4.1.1 卷积神经网络原理
4.1.2 卷积神经网络结构组成
4.2 Softmax回归模型
4.3 CNN-Softmax网络模型
4.4 实验及其结果分析
4.4.1 数据集
4.4.2 实验过程
4.4.3 结果分析
4.5 本章小结
第5章 基于集成学习的CRF与 CNN的蛋白质二级结构预测
5.1 集成学习
5.1.1 集成学习原理
5.1.2 集成学习中差异性分类器的构建
5.2 集成学习的合并策略
5.2.1 平均法和加权平均法
5.2.2 投票法
5.3 CRF 和 CNN 的集成策略
5.4 实验及结果分析
5.4.1 数据集
5.4.2 实验过程
5.4.3 结果分析
5.5 本章小结
第6章 总结与展望
6.1 研究工作总结
6.2 研究工作展望
参考文献
致谢
在学期间主要科研成果
【参考文献】:
期刊论文
[1]蛋白质二级结构在线服务器预测评估[J]. 朱树平,刘毅慧. 生物信息学. 2019(01)
[2]深度学习方法在生物质谱及蛋白质组学中的应用[J]. 赵新元,秦伟捷,钱小红. 生物化学与生物物理进展. 2018(12)
[3]基于卷积长短时记忆神经网络的蛋白质二级结构预测[J]. 郭延哺,李维华,王兵益,金宸. 模式识别与人工智能. 2018(06)
[4]自动编码器方法的蛋白质二级结构预测[J]. 张帅燕,刘毅慧. 生物信息学. 2018(01)
[5]基于PPI网络与机器学习的蛋白质功能预测方法[J]. 唐家琪,吴璟莉. 计算机应用. 2018(03)
[6]诺贝尔化学奖[J]. 王毓明. 大学化学. 2018(02)
[7]基于LSTM循环神经网络的故障时间序列预测[J]. 王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生. 北京航空航天大学学报. 2018(04)
[8]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[9]基于深度学习的八类蛋白质二级结构预测算法[J]. 张蕾,李征,郑逢斌,杨伟. 计算机应用. 2017(05)
[10]深度学习加速技术研究[J]. 杨旭瑜,张铮,张为华. 计算机系统应用. 2016(09)
本文编号:3164859
【文章来源】:齐鲁工业大学山东省
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究目的及意义
1.3 研究现状
1.3.1 蛋白质二级结构预测相关基础
1.3.2 国内外相关技术发展现状
1.4 本文的研究内容和基本结构
1.4.1 研究内容
1.4.2 论文结构安排
第2章 蛋白质二级结构简介与相关预测方法
2.1 蛋白质简介
2.1.1 蛋白质结构分析
2.1.2 蛋白质的层次结构
2.1.3 蛋白质的结构与功能的关系
2.2 蛋白质二级结构预测有关技术
2.2.1 数据处理
2.2.2 特征提取和滑动窗口技术
2.2.3 蛋白质二级结构预测评价指标
2.3 蛋白质二级结构预测相关方法介绍
2.3.1 统计分析方法
2.3.2 基于知识分析方法
2.3.3 机器学习方法
2.4 蛋白质数据库介绍
2.5 本章小结
第3章 基于条件随机场的蛋白质二级结构预测
3.1 条件随机场原理
3.1.1 最大熵原理
3.1.2 隐马尔可夫原理
3.1.3 条件随机场模型
3.2 线性链条件随机场
3.3 条件随机场的基本算法
3.3.1 前向-后向算法
3.3.2 梯度下降法
3.3.3 维特比算法
3.4 实验工具介绍
3.5 实验及结果分析
3.5.1 数据集
3.5.2 实验过程
3.5.3 结果分析
3.6 本章小结
第4章 基于卷积神经网络的蛋白质二级结构预测
4.1 卷积神经网络原理及结构
4.1.1 卷积神经网络原理
4.1.2 卷积神经网络结构组成
4.2 Softmax回归模型
4.3 CNN-Softmax网络模型
4.4 实验及其结果分析
4.4.1 数据集
4.4.2 实验过程
4.4.3 结果分析
4.5 本章小结
第5章 基于集成学习的CRF与 CNN的蛋白质二级结构预测
5.1 集成学习
5.1.1 集成学习原理
5.1.2 集成学习中差异性分类器的构建
5.2 集成学习的合并策略
5.2.1 平均法和加权平均法
5.2.2 投票法
5.3 CRF 和 CNN 的集成策略
5.4 实验及结果分析
5.4.1 数据集
5.4.2 实验过程
5.4.3 结果分析
5.5 本章小结
第6章 总结与展望
6.1 研究工作总结
6.2 研究工作展望
参考文献
致谢
在学期间主要科研成果
【参考文献】:
期刊论文
[1]蛋白质二级结构在线服务器预测评估[J]. 朱树平,刘毅慧. 生物信息学. 2019(01)
[2]深度学习方法在生物质谱及蛋白质组学中的应用[J]. 赵新元,秦伟捷,钱小红. 生物化学与生物物理进展. 2018(12)
[3]基于卷积长短时记忆神经网络的蛋白质二级结构预测[J]. 郭延哺,李维华,王兵益,金宸. 模式识别与人工智能. 2018(06)
[4]自动编码器方法的蛋白质二级结构预测[J]. 张帅燕,刘毅慧. 生物信息学. 2018(01)
[5]基于PPI网络与机器学习的蛋白质功能预测方法[J]. 唐家琪,吴璟莉. 计算机应用. 2018(03)
[6]诺贝尔化学奖[J]. 王毓明. 大学化学. 2018(02)
[7]基于LSTM循环神经网络的故障时间序列预测[J]. 王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生. 北京航空航天大学学报. 2018(04)
[8]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[9]基于深度学习的八类蛋白质二级结构预测算法[J]. 张蕾,李征,郑逢斌,杨伟. 计算机应用. 2017(05)
[10]深度学习加速技术研究[J]. 杨旭瑜,张铮,张为华. 计算机系统应用. 2016(09)
本文编号:3164859
本文链接:https://www.wllwen.com/projectlw/swxlw/3164859.html