机器学习算法在蛋白质结构预测中的应用
本文关键词:机器学习算法在蛋白质结构预测中的应用
更多相关文章: 深度学习 深度玻尔兹曼机 卷积神经网络 蛋白质二级结构 蛋白质相互作用
【摘要】:随着人类基因组计划的实施和生物科学技术的发展,生物信息学的发展速度相当快,它利用计算机科学技术解决生物学中的各种问题。计算机被用于收集、存储和分析生物信息以及生物遗传信息,然后这些信息就可以被用于以基因为基础药物的研究与开发。继基因组学和转录组学之后,蛋白质组学是生物信息学系统的主要研究课题。它是对特定蛋白质组的综合性研究,包括蛋白质在细胞运行过程中的改变,以及蛋白质间的相互作用。随着蛋白质测序技术和X-射线晶体衍射技术等试验技术的发展,大量的蛋白质序列和结构数据很容易被获得,且蛋白质功能分析方法日益成熟,使得我们可以充分利用机器学习方法,学习已知的蛋白质序列和结构数据中的规律,预测未知的蛋白质的结构和功能。本文采用机器学习方法中效率最高的深度学习算法(deep learning)来对蛋白质组学中蛋白质的相互作用预测和蛋白质的二级结构预测两大问题进行了深入的研究。本文主要研究内容如下:1)提出了一种改进的深度玻尔兹曼机(DBM)模型来预测蛋白质的相互作用,为了避免采用sigmoid或tanh激活函数在深度网络中出现过饱和的问题,采用ReLU激活函数改进的玻尔兹曼机(RBM),使网络具备稀疏性,从而避免模型过拟合,加快收敛速度。网络结构采用了两层RBM组成的DBM模型,同时,采用多尺度特征组提取和自协方差编码方法结合的方法编码序列特征,经过实验证明该预测模型比其他的方法能更加精确地预测蛋白质的相互作用。2)针对蛋白质二级结构预测中人工提取特征不精确和成本高的问题,提出了一种基于卷积神经网络的蛋白质二级结构预测方法。首先,利用蛋白质中的20种氨基酸来量化待预测的蛋白质原始序列,得到输入的二维矩阵。然后,利用一维卷积对量化后的二维矩阵进行卷积提取蛋白质序列的特征,其中卷积神经网络预测模型包含五层卷积层和三层全连接层的网络结构,同时为了减少数据的过拟合,在全连接层引入了Dropout的方法。根据具体的预测问题,通过理论分析和多次实验验证该预测模型在蛋白质二级结构预测时具有预测优势。3)针对卷积神经网络在提取特征时的非时序问题,采用了循环神经网络中的双向长短记忆神经网络(BLSTM)结构作为预测模型,来预测蛋白质的二级结构。预测模型包含一层BLSTM,两层全连接层和一层softmax分类层,首先利用BLSTM中隐藏层的正向递归和反向递归模块,来获取蛋白质序列中的上下文的特征信息,且其网络结构中特殊的记忆单元能记忆序列中长距离的氨基酸间的相互关系,从而增强了提取的序列特征的有效性。实验结果证明其预测的效果是比较好的。
【关键词】:深度学习 深度玻尔兹曼机 卷积神经网络 蛋白质二级结构 蛋白质相互作用
【学位授予单位】:江南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q51;TP181
【目录】:
- 摘要3-4
- Abstract4-8
- 第一章 绪论8-14
- 1.1 课题背景与意义8-9
- 1.2 国内外研究现状9-13
- 1.2.1 蛋白质相互作用预测方法9-11
- 1.2.2 蛋白质二级结构预测方法11-13
- 1.3 主要研究内容及组织结构13-14
- 第二章 理论基础14-25
- 2.1 蛋白质简介14-18
- 2.1.1 蛋白质组成与结构14-15
- 2.1.2 蛋白质的相互作用15-16
- 2.1.3 蛋白质的二级结构16-18
- 2.2 深度学习理论18-24
- 2.2.1 神经网络18-19
- 2.2.2 深度玻尔兹曼机(DBM)19-21
- 2.2.3 卷积神经网络(CNN)21-23
- 2.2.4 递归神经网络(RNNs)23-24
- 2.3 本章小结24-25
- 第三章 基于深度玻尔兹曼机的蛋白质相互作用预测25-33
- 3.1 蛋白质序列编码25-27
- 3.2 采用ReLU改进的受限玻尔兹曼机27-28
- 3.3 预测模型整体流程图28
- 3.4 实验与分析28-32
- 3.4.1 实验材料28
- 3.4.2 实验结果28-32
- 3.5 本章小结32-33
- 第四章 基于卷积神经网络的蛋白质二级结构预测33-42
- 4.1 问题描述33
- 4.2 卷积网络模型设计33-36
- 4.2.1 主要的模块33-35
- 4.2.2 特征量化35
- 4.2.3 本文模型的设计35-36
- 4.3 实验数据和结果36-40
- 4.3.1 实验数据36
- 4.3.2 评价指标36-37
- 4.3.3 实验结果37-40
- 4.4 本章小结40-42
- 第五章 基于LSTM的蛋白质二级结构预测42-46
- 5.1 长短记忆神经网络(LSTM)42-44
- 5.1.1 LSTM42-43
- 5.1.2 由LSTM到BLSTM43-44
- 5.2 实验与分析44-45
- 5.2.1 实验数据44
- 5.2.2 实验模型44-45
- 5.2.3 实验结果与分析45
- 5.3 本章小结45-46
- 第六章 工作总结与展望46-48
- 6.1 工作总结46-47
- 6.2 展望47-48
- 致谢48-49
- 参考文献49-52
- 附录52
【相似文献】
中国期刊全文数据库 前10条
1 孟翔燕;孟军;葛家麒;;蛋白质二级结构预测方法的评价[J];生物信息学;2010年03期
2 王菲露;宋杨;;基于广义回归神经网络的蛋白质二级结构预测[J];计算机仿真;2012年02期
3 陈念贻,缪强;模式识别方法研究蛋白质二级结构的规律[J];科学通报;1986年09期
4 李晓琴,罗辽复;蛋白质结构类预测的新方法──基于蛋白质二级结构序列的预测方法[J];内蒙古大学学报(自然科学版);1998年05期
5 王波,吴晓明,宋长新,程敬之;基于网络服务的蛋白质二级结构预测软件[J];西安交通大学学报;2002年10期
6 张海霞,唐焕文,张立震,靳利霞,唐一源;蛋白质二级结构预测方法的评价[J];计算机与应用化学;2003年06期
7 李晓琴,罗辽复,刘次全;翻译速率与蛋白质二级结构的关系[J];生物化学与生物物理学报;2003年02期
8 朱伟,史定华,王翼飞;神经网络在蛋白质二级结构预测中的应用[J];自然杂志;2003年03期
9 闫化军;傅彦;章毅;李毅超;;神经网络方法预测蛋白质二级结构[J];计算机科学;2003年11期
10 孙向东,韦柳静,黄日波;蛋白质二级结构预测的支持向量机模型研究[J];广西农业生物科学;2004年01期
中国重要会议论文全文数据库 前10条
1 王守源;李晓琴;罗辽复;;氨基酸分类与蛋白质二级结构相关性[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
2 孙海军;阮晓钢;;氨基酸序列编码对蛋白质二级结构预测的影响[A];第二十二届中国控制会议论文集(下)[C];2003年
3 陈明杰;王焕峰;刘伟;;基于基团编码的蛋白质二级结构预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
4 宋亮;张剑;王先明;温继敏;陈海波;姚端正;蒋昌忠;;人工神经网络预测蛋白质结构的探讨[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年
5 杨惠云;田心;;神经网络预测蛋白质二级结构的研究[A];天津市生物医学工程学会2007年学术年会论文摘要集[C];2007年
6 罗三华;黄建华;邱建丁;;小波支持向量机在蛋白质二级结构分类预测中应用[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
7 丛培盛;王志恒;王思聪;李通化;;基于SPSSM的蛋白质二级结构预测进展[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
8 孙向东;黄日波;;运用SVMs原理预测蛋白质二级结构研究[A];广西微生物学会2003年学术年会论文集[C];2003年
9 王靖;郭晨;梁向峰;郑丽丽;陈澍;马俊鹤;刘会洲;;阳离子表面活性剂CTAB对蛋白质二级结构的影响[A];第十四届全国分子光谱学术会议论文集[C];2006年
10 孙衍华;刘继凤;迟学斌;;GridMol:基于网格的分子可视化建模软件[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 曹晨;蛋白质二级结构指定和功能分析[D];吉林大学;2016年
2 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年
3 石鸥燕;蛋白质结构预测模型的研究[D];天津医科大学;2008年
4 张胜利;蛋白质与RNA中的若干问题研究[D];大连理工大学;2011年
5 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
6 贾孟文;mRNA序列、结构、能量和蛋白质二级结构的相关性[D];内蒙古大学;2004年
7 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年
8 李明辉;基于机器学习的蛋白质二级结构和相互作用预测[D];哈尔滨工业大学;2007年
9 王艳春;基于GEP和ANN的蛋白质二级结构预测方法研究[D];西北农林科技大学;2009年
10 严文颖;氨基酸相互作用网络的构建、分析及应用[D];苏州大学;2013年
中国硕士学位论文全文数据库 前10条
1 石林凡;拉面面团微观结构研究及品质改良[D];河南工业大学;2015年
2 赵丹丹;拉面面团性质研究及制面工艺优化[D];河南工业大学;2015年
3 薛燕娜;机器学习算法在蛋白质结构预测中的应用[D];江南大学;2016年
4 王洪亮;基于遗传算法的蛋白质二级结构预测研究[D];哈尔滨工程大学;2008年
5 梅启鹏;蛋白质二级结构中的简化编码技术[D];华中科技大学;2004年
6 梁刚锋;蛋白质二级结构的建模与预测[D];国防科学技术大学;2005年
7 于淑惠;基于神经网络的蛋白质二级结构预测建模研究[D];西南大学;2006年
8 孙海军;基于神经网络的蛋白质二级结构预测问题的研究[D];北京工业大学;2004年
9 张海霞;蛋白质二级结构预测方法研究[D];大连理工大学;2004年
10 景楠;基于神经网络方法蛋白质二级结构预测的研究[D];吉林大学;2004年
,本文编号:833652
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/833652.html