当前位置:主页 > 科技论文 > 自动化论文 >

基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测

发布时间:2020-06-07 13:51
【摘要】:近年来,随着生物医学界对于氧化还原酶的认知逐步加深,其在药物研究以及疾病诊断方面的作用愈发被重视。氧化还原酶有许多具有不同功能的亚类,因此对其进行准确的分类是生物信息学中的一项重要任务。传统生物方法对其进行类别研究存在花费时间长、所需费用高的问题。但如果可以根据它的序列建立有效的机器学习方法,将会对其亚家族分类研究提供非常有效的帮助。随着机器学习以及生物信息的发展,基于计算机算法的蛋白质序列识别研究得到了长足的发展。众所周知,酶的本质是蛋白质,因此本文考虑对酶蛋白序列进行特征描述,并结合机器学习算法对其进行分类预测研究,试图以此构建一个高效准确的预测方法。为了高效准确的进行预测,本文研究分为两个方面:针对酶蛋白序列特征描述方法的研究改进、预测分类器的构造,分别提出了 HOG-Cos-PSSM(Histogram of Oriented Gradient-Cosine similarity-PSSM)特征描述 方法和 TKSE(T-sne+K-meansSelection ensemble classifier framework)集成分类框架。第一,本文对现有的特征描述方法进行总结,针对酶蛋白序列特征矩阵位置信息丢失的问题,引入方向梯度直方图和余弦夹角相似度的概念,分别提出HOG-PSSM(Histogram of Oriented Gradient PSSM)Cos-PSSM(Cosine similarity PSSM)。并且在相关性分析之后进行特征融合提出HOG-Cos-PSSM特征描述方法。实验表明,HOG-Cos-PSSM特征描述方法有效的对现有特征描述方法进行改进。第二,在分类器研究方面,本文使用多分类器集成方法,引入“能力区域”和“区域选择集成”的概念并提出TKSE集成分类框架。首先,使用基于t分布的随机近邻嵌入算法T-sne和K-means聚类算法对样本空间进行“能力区域”的划分。然后,对区域中各基分类器进行筛选并使用Stacking层次集成框架以构成各区域的集成分类器。最后,测试样本选择相似度最高区域对应的集成分类器进行分类。大量实验结果证实,TKSE集成分类框架的预测效果明显高于各基分类器,并且其与HOG-Cos-PSSM特征描述方法共同使用将氧化还原酶分类预测精度提升至95.87%。本文所提出的HOG-Cos-PSSM特征描述方法与TKSE集成分类框架有效提高了氧化还原酶分类预测精度,此方法是对现有预测方法的有效补充。
【图文】:

基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测


图2:本文预测研宄流整体程图逡逑

示意图,交叉验证,检验方法,示意图


再用训练完成的分类模型对测试样本进行预测以评估其性能[4SH46]。逡逑K折交叉验证被视为较为客观的检验方法,其可以在较为复杂的样本分布中对逡逑分类模型进行无偏估计[13)。如图6所示,K折交叉验证首先将原始数据集分割成逡逑不交叉的A个子集,并且每个子集中各类别之间的比例大致相同m[48]。之后将其中逡逑任一子集提出以作为测试集,而其余A-1个集合作为训练集对分类模型进行训练。逡逑以此循环/t次以确保每一个子集都被当做过测试集[13]。最后将A次的预测结果计算逡逑求平均并以此作为评估结果。逡逑其中,Jackknife检验方法作为交叉验证的一种,,被认为是最严格和客观的检验逡逑方法。其在蛋白质结构和功能预测研究中常常被用来评估算法的性能。在Jackknife逡逑测试中,每次提出一条蛋白质序列作为测试样本,剩余的蛋白质序列构成训练集。逡逑以此不断循环,确保确保每条蛋白质序列均被当做过测试样本。因此,Jackknife逡逑测试也被称为留一法测试。本文中,我们将使用Jackknife检验方法来评估分类模逡逑型。逡逑19逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R318;TP181

【参考文献】

相关期刊论文 前5条

1 孙晶京;;使用伪氨基酸模型和K近邻分类器预测酶的分类[J];计算机工程与应用;2013年09期

2 张斌;尹京苑;薛丹;;基于 RBF 神经网络的蛋白质二级结构预测[J];生物信息学;2011年03期

3 石瑞佳;胡秀珍;王伟;;基于离散量算法预测酶的亚类[J];河南科学;2008年11期

4 冯焕清;张相华;许文龙;;基于进化信息和支持向量机的酶蛋白亚家族预测[J];中国科学技术大学学报;2008年07期

5 张绍武,潘泉,张洪才,张云龙,王海瑜;基于支持向量机和贝叶斯方法的蛋白质四级结构分类研究[J];生物物理学报;2003年02期

相关博士学位论文 前3条

1 徐微微;高维数据降维可视化研究及其在生物医学中的应用[D];武汉大学;2016年

2 白雪;聚类分析中的相似性度量及其应用研究[D];北京交通大学;2012年

3 王彤;高维生物数据的分类与预测研究[D];上海交通大学;2009年

相关硕士学位论文 前5条

1 邵丽芬;基于深度学习的蛋白质序列分类问题的研究与应用[D];电子科技大学;2018年

2 谢尚欣;基于深度学习的蛋白质二级结构预测[D];浙江理工大学;2018年

3 王静;基于模糊支持向量机的蛋白质二级结构智能预测[D];浙江理工大学;2017年

4 刘树慧;基于特征融合和降维算法的蛋白质亚核定位研究[D];云南大学;2016年

5 曹佳佳;基于多信息融合的蛋白质结构类预测方法研究[D];浙江理工大学;2015年



本文编号:2701518

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2701518.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7cf94***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com