基于序列的蛋白质结构预测的机器学习模型
本文关键词:基于序列的蛋白质结构预测的机器学习模型,由笔耕文化传播整理发布。
【摘要】:从急剧膨胀的蛋白质序列数据信息中分析其结构和生物功能是后基因组时代面临的一个重要挑战。蛋白质结构类型能直观描述蛋白质的完整空间折叠结构模式,是解释蛋白质结构和功能的重要信息来源,为相关生物技术的发展提供了理论依据。然而确定蛋白质结构类型的传统生物实验方法不仅周期长而且成本高,所以利用数学方法和计算机技术开发快速有效的蛋白质结构类预测模型与实验方法互为补充将是一项非常有意义的工作。本文以蛋白质结构类预测为研究背景,基于统计模式识别的理论与方法,深入研究了蛋白质结构类预测中的特征表示问题,主要成果有:(1)本文提出了基于蛋白质二级结构信息的特征表示方法。该方法在预测的线性二级结构序列基础上,从二级结构含量、顺序和距离三个角度分别设计反映二级结构元素含量及其空间排列方式的特征,特别是大量与二级结构片段相关的距离特征。通过四个低序列相似性数据集上与其它基于二级结构的预测方法对比结果表明,这种基于二级结构含量、顺序和距离设计的特征表示方法更能有效地描述蛋白质二级结构的空间排布信息,其总体分类准确率以及α/β类和α+β类分类准确率有着不同程度的提高,是一种有效的特征表示方法。另外,为了研究蛋白质罕见二级结构对结构类预测性能的影响,设计了9个基于罕见二级结构的特征,实验结果说明罕见二级结构信息可以有效的改进蛋白质结构类预测模型的性能。(2)本文提出了基于蛋白质序列进化信息的特征表示方法。蛋白质进化信息反映了蛋白质序列中各个位置的氨基酸残基在进化过程中的保守性,这对揭示蛋白质的结构和功能有重要意义。从蛋白质氨基酸序列出发,由PSI-BLAST预测获取相应的位置特异性打分矩阵,设计了五种蛋白质氨基酸进化差异公式用于蛋白质序列特征表示。两个低序列相似性数据集上的预测结果显示了本文提出方法的有效性。此外,研究了基于二级结构和进化信息的多特征融合的蛋白质结构类预测方法,实验结果表明有效的特征融合确实可以显著改善原有基于单一信息来源的特征预测模型的分类准确率,这为基于多源信息特征融合来预测蛋白质结构类提供了新思路。
【关键词】:蛋白质结构类 二级结构 位置特异性打分矩阵 支持向量机
【学位授予单位】:中国海洋大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q51
【目录】:
- 摘要5-7
- abstract7-11
- 1 绪论11-27
- 1.1 引言11-12
- 1.2 蛋白质基础理论知识12-20
- 1.2.1 蛋白质的层次性结构12-16
- 1.2.2 蛋白质结构类16-20
- 1.3 蛋白质结构类预测概述20-24
- 1.3.1 蛋白质结构类预测问题20
- 1.3.2 蛋白质结构类预测国内外研究现状20-24
- 1.4 本文的主要工作24-27
- 2 材料和方法27-37
- 2.1 数据集27-29
- 2.2 分类算法29-31
- 2.3 分类算法的性能评估31-34
- 2.3.1 分类算法性能评估方法31-33
- 2.3.2 分类算法的性能评估指标33-34
- 2.4 本章小结34-37
- 3 基于二级结构信息的蛋白质结构类预测方法37-63
- 3.1 引言37
- 3.2 基于二级结构信息的蛋白质特征表示方法37-48
- 3.2.1 蛋白质二级结构预测37-39
- 3.2.2 蛋白质特征表示39-46
- 3.2.3 特征选择46-48
- 3.3 蛋白质结构类预测分类算法设计48-50
- 3.4 结果与讨论50-61
- 3.4.1 本章蛋白质结构类预测方法的结果50-53
- 3.4.2 特征分析53-55
- 3.4.3 与现有其它方法比较55-57
- 3.4.4 多种分类算法预测比较57-58
- 3.4.5 罕见二级结构特征对蛋白质结构类预测性能的影响58-61
- 3.5 本章小结61-63
- 4 基于序列进化信息的蛋白质结构类预测方法63-89
- 4.1 引言63-64
- 4.2 基于序列进化信息的蛋白质序列特征表示方法64-69
- 4.2.1 位置特异性打分矩阵64-66
- 4.2.2 蛋白质序列特征表示66-69
- 4.3 蛋白质结构类预测分类算法设计69-70
- 4.4 结果与讨论70-78
- 4.4.1 五种序列表示方法的比较70-74
- 4.4.2 特征分析74-75
- 4.4.3 与现有其它方法比较75-77
- 4.4.4 多种分类算法预测比较77-78
- 4.5 融合二级结构信息和进化信息预测蛋白质结构类78-86
- 4.5.1 蛋白质序列特征表示78-81
- 4.5.2 结果与讨论81-86
- 4.6 本章小结86-89
- 5 总结与展望89-93
- 5.1 工作总结89-90
- 5.2 研究展望90-93
- 参考文献93-105
- 附录105-113
- 致谢113-115
- 个人简历115-117
- 攻读博士学位期间学术论文完成情况117
【相似文献】
中国期刊全文数据库 前10条
1 任清华,莫忠息,陶玉敏;预测RNA二级结构的一种遗传模拟退火算法[J];武汉大学学报(理学版);2004年01期
2 郭颖,李大超;一类RNA二级结构的计数[J];海南师范学院学报(自然科学版);2005年01期
3 白凤兰;姚玉华;孙立波;;RNA二级结构的6-D表示及相似性分析[J];黑龙江大学自然科学学报;2006年01期
4 陈翔;卜东波;张法;高文;;基于局部茎搜索的RNA二级结构预测算法[J];生物化学与生物物理进展;2009年01期
5 白凤兰;徐丽;;RNA二级结构的数学表示及其应用[J];大连交通大学学报;2010年06期
6 ;研究揭示RNA二级结构剪接调控新机制[J];中国家禽;2013年16期
7 李伍举,吴加金;RNA二级结构的预测[J];军事医学科学院院刊;1996年04期
8 ;我国揭示RNA二级结构剪接调控新机制[J];生物学教学;2014年01期
9 冯永君,张长铠,陈雅丽,侯万秋;火菇素的溶液二级结构与变性动力学[J];中国生物化学与分子生物学报;2000年04期
10 李晓琴,王守源,罗辽复;蛋白质的二级结构序列和结构型[J];内蒙古大学学报(自然科学版);2002年01期
中国重要会议论文全文数据库 前10条
1 苏光龙;黄旭慧;丁凡;蒋晓舟;骆志刚;;基于堆积能量和协变信息的RNA二级结构预测算法[A];中国通信学会第六届学术年会论文集(下)[C];2009年
2 王联结;张强;阎长伟;陈宜顶;;蛋白质中6种标准氨基酸组成序列二级结构倾向性分析[A];中国生物化学与分子生物学会第八届会员代表大会暨全国学术会议论文摘要集[C];2001年
3 谢海兵;David M.Irwin;张亚平;;人类基因组中保守二级结构的纯净化选择及其在转录调控网络中的作用[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年
4 田云;卢向阳;;tmRNA研究进展[A];第四届全国RNA进展研讨会论文集[C];2005年
5 张鸿伟;王凤山;;低分子肝素-超氧化物歧化酶结合物的二级结构分析[A];2006第六届中国药学会学术年会论文集[C];2006年
6 杨惠云;田心;;应用BP神经网络预测蛋白质的二级结构[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
7 谭宏伟;陈光巨;刘若庄;;β~3型多肽环自组织的理论研究[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
8 吴春芳;赵新;黎占亭;;一类杂交螺旋体的构筑[A];全国第十六届大环化学暨第八届超分子化学学术讨论会论文摘要集[C];2012年
9 龚超;蒋冬生;胡佑伦;;医院数字化系统总体结构的选择与总体方案设计——一种以第二级结构为主体的系统[A];2010年中华医学会医学工程学分会年会论文集[C];2010年
10 邱阳;林克椿;聂松青;;HIV-1gp41N端融合肽及其突变体与脂膜作用后二级结构的变化[A];第七届全国生物膜学术讨论会论文摘要汇编[C];1999年
中国重要报纸全文数据库 前1条
1 记者 杨舒;我科学家打破科学界“黑箱”[N];光明日报;2014年
中国博士学位论文全文数据库 前10条
1 王文文;RNA二级结构的计数问题及其进化分析[D];大连理工大学;2009年
2 董浩;RNA二级结构预测方法研究[D];吉林大学;2011年
3 张丽超;基于序列的蛋白质结构预测的机器学习模型[D];中国海洋大学;2015年
4 高世乐;含假结RNA二级结构图的语法及拓扑分类[D];大连理工大学;2008年
5 刘娜;生物序列/结构的比较及进化树的构建[D];大连理工大学;2007年
6 余军;RNA二级结构预测算法研究[D];吉林大学;2011年
7 周圆兀;蛋白质分子自然构象和二级结构的计算分析及预测[D];复旦大学;2008年
8 冯永娥;蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨[D];内蒙古大学;2008年
9 宋海峰;基于系统发育比较分析的反义药物优化设计及相关药理学研究[D];中国人民解放军军事医学科学院;2004年
10 木瑞塔(Murtada Khalafallah Elbashir Elfaki);基于机器学习和统计方法的蛋白质结构特征预测[D];中南大学;2013年
中国硕士学位论文全文数据库 前10条
1 徐聪;可预测假结的RNA二级结构最优茎区组合方法[D];吉林大学;2009年
2 郭晨;人类pre-mRNA二级结构的数据库建立及与蛋白质相关性的分析[D];云南大学;2010年
3 李杰;RNA二级结构表示及相似性分析研究[D];吉林大学;2011年
4 郭颖;RNA的二级结构[D];大连理工大学;2005年
5 杨红;RNA二级结构的计数[D];大连理工大学;2006年
6 杨赫;RNA二级结构中假结的预测研究[D];吉林大学;2013年
7 马涛;mRNA二级结构对酿酒酵母翻译效率的影响[D];西北农林科技大学;2015年
8 张西洋;序列及序列二级结构联配问题的若干算法研究[D];电子科技大学;2015年
9 王洪波;固有无序蛋白与其它成份相互作用数据库构建[D];山东师范大学;2015年
10 代晓转;拟南芥RNA二级结构的高通量数据分析[D];浙江大学;2015年
本文关键词:基于序列的蛋白质结构预测的机器学习模型,由笔耕文化传播整理发布。
,本文编号:391953
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/391953.html