基于决策森林的蛋白质二级结构预测算法研究
发布时间:2020-06-03 00:24
【摘要】:蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了_2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的_8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的_8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。
【图文】:
Valine Val V 13 赖氨酸 Lysine Leucine Leu L 14 组氨酸 Histidine Isoleucine Ile I 15 半胱氨酸 Cysteine Serine Ser S 16 甲硫氨酸 Methionine Threonine Thr T 17 苯丙氨酸 Phenylalanine Arspartic acid Asp D 18 酪氨酸 Tyrosine Asparagine Asn N 19 色氨酸 Thyptophan Glutamic acid Glu E 20 脯氨酸 Proline 不同空间结构首先是将经过脱水缩合反应的氨基酸连接成肽链,肽链螺旋、折叠,最后才形成不同的结构。多个不同结构的蛋白构稳定的蛋白质复合物。蛋白质分子的结构有四种,分别为一构,如图 2-1 所示。
图 2-2 常见的 3 种蛋白质二级结构一种较为复杂的蛋白质二级结构分类形式。采用 Dtructure)编码,,用单一的英文字母来表示蛋白质的二述方式称为蛋白质二级结构的八态形式,如表 2-2表 2-2 蛋白质二级结构的八态形式含义 4 转角螺旋(α 螺旋) 最短长独立β 桥内的残基(β 桥) 一对 β 折叠,反平行的折叠形态(延伸链) 最短长3 转角螺旋 最短长5 转角螺旋(π 螺旋) 最短长氢键转角 3、
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP301.6;Q51
本文编号:2693998
【图文】:
Valine Val V 13 赖氨酸 Lysine Leucine Leu L 14 组氨酸 Histidine Isoleucine Ile I 15 半胱氨酸 Cysteine Serine Ser S 16 甲硫氨酸 Methionine Threonine Thr T 17 苯丙氨酸 Phenylalanine Arspartic acid Asp D 18 酪氨酸 Tyrosine Asparagine Asn N 19 色氨酸 Thyptophan Glutamic acid Glu E 20 脯氨酸 Proline 不同空间结构首先是将经过脱水缩合反应的氨基酸连接成肽链,肽链螺旋、折叠,最后才形成不同的结构。多个不同结构的蛋白构稳定的蛋白质复合物。蛋白质分子的结构有四种,分别为一构,如图 2-1 所示。
图 2-2 常见的 3 种蛋白质二级结构一种较为复杂的蛋白质二级结构分类形式。采用 Dtructure)编码,,用单一的英文字母来表示蛋白质的二述方式称为蛋白质二级结构的八态形式,如表 2-2表 2-2 蛋白质二级结构的八态形式含义 4 转角螺旋(α 螺旋) 最短长独立β 桥内的残基(β 桥) 一对 β 折叠,反平行的折叠形态(延伸链) 最短长3 转角螺旋 最短长5 转角螺旋(π 螺旋) 最短长氢键转角 3、
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP301.6;Q51
【参考文献】
相关期刊论文 前2条
1 张安胜;王爱平;;基于深度学习的蛋白质二级结构预测[J];计算机仿真;2015年01期
2 张维东;朱宏明;周闻钧;;决策树算法在蛋白质二级结构预测问题中的应用研究[J];微型电脑应用;2009年02期
相关硕士学位论文 前2条
1 张蕾;基于神经网络的蛋白质二级结构预测算法研究[D];河南大学;2016年
2 连云涓;蛋白质二级结构预测的多核学习方法[D];上海交通大学;2013年
本文编号:2693998
本文链接:https://www.wllwen.com/projectlw/swxlw/2693998.html