当前位置:主页 > 理工论文 > 生物学论文 >

基于多标签分类算法的植物蛋白功能预测研究

发布时间:2021-02-15 04:26
  大数据时代,热点研究是挖掘有价值信息。本文研究目的是从大量未知蛋白质中挖掘其功能。事实证明蛋白功能具有多样性,因此本文使用能够同时处理多个功能类的多标签分类算法。本文未知植物蛋白来源内蒙古大学生科院,以GO功能为切入对未知蛋白进行挖掘,为得已知蛋白数据集,从GO数据库和uniprot数据库爬取包含43个GO功能类共计66341条蛋白质序列。本文深入研究了基于问题转换的BR、CC、RAKEL算法和基于算法转换的BR-KNN、ML-KNN、BPMLL算法。研究了基于理化性质、基于n-gram、基于k-skip-n-gram的特征提取方法,并使用特征融合,实验证明将n-gram和理化性质特征融合后在平均精度比只使用n-gram提升了0.008。改进理化性质特征提取方法使生成的特征数据集符合多标签分类的要求。本文将六种特征处理方法和六种多标签分类算法两两组合以快速有效的解决多标签分类问题,最后将数据集在36种组合上分别进行交叉实验,实验表明188维MLKNN在海明损失、0-1错误率、覆盖率、排序损失、平均精度上最优,分别比次优组合算法好0.003、0.0215、0.2383、0.0043、0.... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于多标签分类算法的植物蛋白功能预测研究


序列和功能关系图

示意图,示意图,标签,数据集


第一章已大致介绍多标签算法,现更加详细的阐述一下算法运行机制及原理。1 问题转换方法(1)基于标签转换方法BR 算法会把特征训练集分 p 个二分数据集 Qλi,i=1…p,划分为多少个二分数据集是根集中标签的数量而定,二者相等。因为一个标签表示的是这个数据集在这个类上的标,每个二分数据集其实就是原来数据集上的属性和对应的它的单个(i=1...p)标签类。属于这单个标签,就标记为 1,不属于标记为 0。当训练好的模型应用到待预测样本时 p 个二分类器去预测对应的 p 个类标签,所有二分类器的预测结果其实就是预定好的的类标签的预测结果。在用时上来说,P 个二分类器一样,因此时间相同,假设二分时 O(C),则 BR 的整体用时为 O(p×C),所以 p 小的话 BR 整体复杂度就小,因此使数据集标签数越少越好。由于 BR 算法是每个二分类器在各个类上单独预测,现实问签类之间可能有关联性,甚至是树状层次关联,所以 BR 在关联性方面不是很好。BR 图 2.1。

示意图,示意图,标签,植物蛋白


基于多标签分类算法的植物蛋白功能预测研究果作为下一个类标签预测的已知条件。假如分类器 Cj对应标签类λj,一个样本 x 需个标签类上分类,是值为 1 不是值为 0,结果为 Pr(λ1|x)。C2判断 x 是否属于λ2,此上λ1的值作为输入得 Pr(λ2∣xλ1)。依次到判断最后一个标签类时,会将前面 j-1 个的预测结果都考虑进去,即λ1,…,λj 1会作为已知信息和样本一起输入得 P,λj 1)。考虑了标签间联系,改进了 BR。过程如图 2.2。

【参考文献】:
期刊论文
[1]基于大数据的数据挖掘技术与应用[J]. 张爱国.  现代工业经济和信息化. 2017(03)
[2]大数据下的机器学习算法综述[J]. 何清,李宁,罗文娟,史忠植.  模式识别与人工智能. 2014(04)
[3]一种改进的ML-kNN多标记文档分类方法[J]. 程圣军,黄庆成,刘家锋,唐降龙.  哈尔滨工业大学学报. 2013(11)
[4]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀.  计算机科学. 2013(04)
[5]数据降维方法分析与研究[J]. 吴晓婷,闫德勤.  计算机应用研究. 2009(08)
[6]nr数据库分析及其本地化[J]. 邓泱泱,荔建琦,吴松锋,朱云平,陈耀文,贺福初.  计算机工程. 2006(05)
[7]典型相关分析的理论及其在特征融合中的应用[J]. 孙权森,曾生根,王平安,夏德深.  计算机学报. 2005(09)
[8]决策树分类技术研究[J]. 栾丽华,吉根林.  计算机工程. 2004(09)
[9]决策树学习算法ID3的研究[J]. 杨明,张载鸿.  微机发展. 2002(05)
[10]数据挖掘中的数据分类算法综述[J]. 刘红岩,陈剑,陈国青.  清华大学学报(自然科学版). 2002(06)

硕士论文
[1]一种改进的ML-KNN多标记分类方法研究[D]. 伏浩铭.电子科技大学 2017



本文编号:3034432

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3034432.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47248***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com