基于改进混合多标签分类器的蛋白质分类研究
发布时间:2021-01-05 22:43
蛋白质是生命的物质基础,同时也是生命活动的主要承担者。近年来,随着数据库中蛋白质序列越来越多,而常规的生物物理技术极其繁琐,昂贵且容易出错。基于生物信息学技术研究蛋白质功能或结构分类越来越迫切。通过引入“改进的混合多标签分类器”和“近邻得分”,开发了一种新的预测器,称为MF-EFP,可用于处理同时包含单功能和多功能酶的分类。为了验证所设计的预测器性能,在构建的新多功能酶的基准数据集上使用了MF-EFP进行五折交叉验证,该数据集含有以下7个功能类别:氧化还原酶(EC1),转移酶(EC2),水解酶(EC3),裂解酶(EC4),异构酶(EC5),连接酶(EC6),易位酶(EC7),其中所含的酶都具有≤90%的冗余度。实验表明,MF-EFP的性能优于现有的预测器。作为用户友好的Web服务器,MF-EFP预测网站http://www.jci-bioinfo.cn/MF-EFP免费向公众提供。通过引入基于Re LU激活函数的多标签神经网络算法,设计了膜蛋白功能多标签预测器。为满足多标签数据集的需求,该算法将单标签学习中常用的损失函数(如交叉熵)替换成多标签交叉熵损失函数。为了验证所设计的预测器性能...
【文章来源】:景德镇陶瓷大学江西省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
UniProtKB/TrEMBL数据库中蛋白质数量变化曲线
景德镇陶瓷大学硕士学位论文1绪论5membrane)、第四类跨膜蛋白(single-passtypeIVmembrane)、多通道跨膜蛋白(multi-passmembrane)、脂链锚定膜蛋白(lipid-anchormembrane)、GPI锚定膜蛋白(GPI-anchor)、外周膜蛋白(peripheralmembrane)。由于膜蛋白的类型与自身组成存在某种密切联系,可以将提取膜蛋白的信息作为确定未知膜蛋白类型的重要线索[20]。若是单纯用传统的实验方法来确定未知膜蛋白的类型,那样将费时又费钱。因此,迫切需要发展一种计算方法来代替实验方法,特别是在蛋白质序列数量呈爆炸式增长的后基因组时代。图1-2:八种类型的膜蛋白示意图实际上,在过去的几十年中,提出了各种各样的方法来预测膜蛋白的类型,如文献[21-24]。这些方法对促进膜蛋白研究的发展起到了重要作用,然而上述文献提及的所有预测器仅针对处理单一类型的膜蛋白,未涉及同时含有两种或两种以上类型的膜蛋白。而这些多类型的膜蛋白可能具有一些非常特殊的生物学功能,无论对于基础研究还是药物发现,都值得研究者的深入研究。2007年,Chou和Shen[25]首次提出了8种类型的膜蛋白预测,采用了Pse-PSSM的特征提取方法,在Jackknife的验证方法下,预测膜蛋白类型的成功率达到85.0%。2013年,Huang和Yuan[26]介绍膜蛋白数据集如何收集的详细步骤,并且采用当时热门的ML-KNN算法和PseAAC特征提取方法,最后平均精度结果达到了87%。2015年,Xiao[27]在更加严格的基准数据集下,提出了物理化学性质矩阵和灰色PSSM结合的方法,得到了子集准确度为67.74%的结果。2018年,Sankari[28]提出了一种基于交换基团的蛋白质序列表示的特征集用于膜蛋白的分类,该特征集具有两种新的特征提取策略,称为
景德镇陶瓷大学硕士学位论文2序列信息的特征提取方法92序列信息的特征提取方法2.1引言一个好用的预测器能够极大的帮助学者节省精力与时间。如何建立一个真正有用的预测器成了一个值得深思的问题。根据Chou[36]以及其相关文献[37,38]的总结,一个真正有用的预测器可以简要概括为五个步骤:(1)收集有效数据构成基准数据集用于模型的训练和测试;(2)寻找合适的关系式对蛋白质样品数字化表达,该关系式在一定程度上,可以真实反映它们与待预测样本属性的内在联系;(3)引入或开发有效的算法以进行预测;(4)执行交叉验证测试以客观评估预测指标的准确性;(5)建立一个对公众开放的预测器网站或模型代码。在这五个步骤都需要认真严谨的对待,其中十分重要的是如何提取有用的生物特征,达到分辨蛋白质功能类型的目的。在蛋白质序列信息中,如何从字母序列转换到数字特征,将是本章研究主要内容。图2-1预测的一般流程2.2特征提取算法在生物信息学中,一般情况下蛋白质序列信息可以分为两种模型:连续模型和离散模型。连续模型包括蛋白质序列中氨基酸位置信息,主要依赖序列同源性搜索工具,但问题在于该提取只能在蛋白具有同源序列的情况下。当面对该蛋白无同源序列,则不能进行有效预测。为了解决上述问题,提出了许多基于离散模型作为特征提取方法。在蛋白质序列信息中,通过数学表达式让字母序列转换成不连续的数字特征,其中大量的转换利用计算机强大的计算功能便可实现。下面,主要从氨基
【参考文献】:
期刊论文
[1]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀. 计算机科学. 2013(04)
博士论文
[1]多标记学习算法研究及在生物医学数据挖掘中的应用[D]. 王普.中国科学院大学(中国科学院深圳先进技术研究院) 2017
硕士论文
[1]基于伪氨基酸成分的蛋白质多标签分类预测研究[D]. 邹洪亮.景德镇陶瓷学院 2015
本文编号:2959430
【文章来源】:景德镇陶瓷大学江西省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
UniProtKB/TrEMBL数据库中蛋白质数量变化曲线
景德镇陶瓷大学硕士学位论文1绪论5membrane)、第四类跨膜蛋白(single-passtypeIVmembrane)、多通道跨膜蛋白(multi-passmembrane)、脂链锚定膜蛋白(lipid-anchormembrane)、GPI锚定膜蛋白(GPI-anchor)、外周膜蛋白(peripheralmembrane)。由于膜蛋白的类型与自身组成存在某种密切联系,可以将提取膜蛋白的信息作为确定未知膜蛋白类型的重要线索[20]。若是单纯用传统的实验方法来确定未知膜蛋白的类型,那样将费时又费钱。因此,迫切需要发展一种计算方法来代替实验方法,特别是在蛋白质序列数量呈爆炸式增长的后基因组时代。图1-2:八种类型的膜蛋白示意图实际上,在过去的几十年中,提出了各种各样的方法来预测膜蛋白的类型,如文献[21-24]。这些方法对促进膜蛋白研究的发展起到了重要作用,然而上述文献提及的所有预测器仅针对处理单一类型的膜蛋白,未涉及同时含有两种或两种以上类型的膜蛋白。而这些多类型的膜蛋白可能具有一些非常特殊的生物学功能,无论对于基础研究还是药物发现,都值得研究者的深入研究。2007年,Chou和Shen[25]首次提出了8种类型的膜蛋白预测,采用了Pse-PSSM的特征提取方法,在Jackknife的验证方法下,预测膜蛋白类型的成功率达到85.0%。2013年,Huang和Yuan[26]介绍膜蛋白数据集如何收集的详细步骤,并且采用当时热门的ML-KNN算法和PseAAC特征提取方法,最后平均精度结果达到了87%。2015年,Xiao[27]在更加严格的基准数据集下,提出了物理化学性质矩阵和灰色PSSM结合的方法,得到了子集准确度为67.74%的结果。2018年,Sankari[28]提出了一种基于交换基团的蛋白质序列表示的特征集用于膜蛋白的分类,该特征集具有两种新的特征提取策略,称为
景德镇陶瓷大学硕士学位论文2序列信息的特征提取方法92序列信息的特征提取方法2.1引言一个好用的预测器能够极大的帮助学者节省精力与时间。如何建立一个真正有用的预测器成了一个值得深思的问题。根据Chou[36]以及其相关文献[37,38]的总结,一个真正有用的预测器可以简要概括为五个步骤:(1)收集有效数据构成基准数据集用于模型的训练和测试;(2)寻找合适的关系式对蛋白质样品数字化表达,该关系式在一定程度上,可以真实反映它们与待预测样本属性的内在联系;(3)引入或开发有效的算法以进行预测;(4)执行交叉验证测试以客观评估预测指标的准确性;(5)建立一个对公众开放的预测器网站或模型代码。在这五个步骤都需要认真严谨的对待,其中十分重要的是如何提取有用的生物特征,达到分辨蛋白质功能类型的目的。在蛋白质序列信息中,如何从字母序列转换到数字特征,将是本章研究主要内容。图2-1预测的一般流程2.2特征提取算法在生物信息学中,一般情况下蛋白质序列信息可以分为两种模型:连续模型和离散模型。连续模型包括蛋白质序列中氨基酸位置信息,主要依赖序列同源性搜索工具,但问题在于该提取只能在蛋白具有同源序列的情况下。当面对该蛋白无同源序列,则不能进行有效预测。为了解决上述问题,提出了许多基于离散模型作为特征提取方法。在蛋白质序列信息中,通过数学表达式让字母序列转换成不连续的数字特征,其中大量的转换利用计算机强大的计算功能便可实现。下面,主要从氨基
【参考文献】:
期刊论文
[1]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀. 计算机科学. 2013(04)
博士论文
[1]多标记学习算法研究及在生物医学数据挖掘中的应用[D]. 王普.中国科学院大学(中国科学院深圳先进技术研究院) 2017
硕士论文
[1]基于伪氨基酸成分的蛋白质多标签分类预测研究[D]. 邹洪亮.景德镇陶瓷学院 2015
本文编号:2959430
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2959430.html