基于多标签分类的基因术语标注
发布时间:2017-04-13 00:00
本文关键词:基于多标签分类的基因术语标注,由笔耕文化传播整理发布。
【摘要】:随着生物科技的发展,研究者们发现基因是导致疾病产生的直接或间接原因,因此,基因研究受到了越来越多研究者的关注。当前海量的生物医学文献与基因相关,研究者们希望对这些文献进行标准的基因术语的标注。然而,手工分析和利用搜索引擎进行文献的基因标注费时费力。因此,本文提出了一种自动化的文献基因术语标注方案。我们首次将文献的基因术语标注投射到多标签分类的框架下,提出了多标签学习的模型训练方案。首先,从国际最著名的生物医学领域的搜索引擎Pubmed中查找基因术语关键词的生物医学文献,利用其Mesh功能完成文摘的基因标签标注,构成训练数据集,根据训练数据集设计多标签分类器。接着,我们提出了两个基于多标签分类的基因术语标注算法,约束简化的Rank-SVM (SCRank-SVM)和正则化RBF网络多标签分类(ReguRBFML)算法进行测试样本的自动化基因标柱。最后,我们提出了术语标注分类器性能评估标准,完成了算法的性能评估。约束简化的Rank-SVM多标签基因术语标注算法(Simplified Constraints Rank-SVM, SCRank-SVM)主要依据Rank量化样本标签之间的相关性的思想,首先定义无偏置b的多标签分类决策面和边缘,然后通过最大化边缘和最小化Ranking loss函数建立分类模型,最后利用阈值函数预测标签。与Rank-SVM算法相比,由于约束条件没有b项,SCRank-SVM算法在对偶优化问题中具有更少的优化约束条件,从而获得更优的解空间。正则化RBF网络多标签分类算法(Regularized RBF neural network Multi-Label, ReguRBFML)主要解决多标签算法运行时间长的问题,为了保证分类准确率的情况下减少生物医学文献基因标注的时间,我们将径向基函数RBF单层前馈神经网络拓展到多标签分类问题。SOM(Self Organization Map)具有聚类速度快、泛化性能好等优点,利用SOM聚类方法产生RBF的聚类中心,然后建立正则化的最小二乘学习模型,使用岭回归的方法得出神经网络的隐藏层到输出层的权重向量,最后用阈值函数预测标签。在生物医学文献上的GO基因术语标注结果表明,本文提出的多标签分类算法在基因术语标注的应用中比传统的多标签分类方法准确率提高了3%-18%。同时,在公开的多标签数据集上的实验结果表明,本文提出的算法也适用于一般多标签分类问题,比传统方法的准确率提高了1%-6%。
【关键词】:GO基因术语 多标签分类 Rank-SVM RBF神经网络
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q78
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-15
- 1.1 研究背景及意义9-11
- 1.2 研究现状11-12
- 1.3 本文的主要研究思路12-13
- 1.4 本文的组织架构13-15
- 第二章 面向生物文本的基因术语自动化标注15-28
- 2.1 基于多标签分类的基因术语标注技术路线15-21
- 2.2 基于多标签分类基因标注问题定义21-24
- 2.2.1 学习框架21-23
- 2.2.2 在术语标注上使用多标签分类的难点23-24
- 2.3 基于多标签分类的基因标注算法评估标准24-27
- 2.3.1 基于样本的评估标准24-26
- 2.3.2 基于类别的评价指标26-27
- 2.4 本章小结27-28
- 第三章 约束简化的Rank-SVM多标签基因标注算法28-41
- 3.1 传统多标签分类算法28-30
- 3.2 约束简化的Rank-SVM多标签基因术语标注算法30-32
- 3.2.1 SCRank-SVM多标签基因术语标注算法30-32
- 3.2.2 核函数和标签预测32
- 3.3 实验结果与分析32-40
- 3.3.1 医学文献数据集32-34
- 3.3.2 公开多标签数据集34-35
- 3.3.3 算法参数设置35-36
- 3.3.4 结果与分析36-40
- 3.4 本章小结40-41
- 第四章 正则化RBF网络的多标签基因术语标注41-53
- 4.1 RBF神经网络41-43
- 4.2 正则化RBF网络的多标签基因标注算法43-46
- 4.3 实验结果与分析46-51
- 4.3.1 参数设置46-47
- 4.3.2 结果与分析47-51
- 4.4 本章小结51-53
- 第五章 总结与展望53-55
- 5.1 工作总结53
- 5.2 进一步工作和展望53-55
- 参考文献55-59
- 攻读硕士学位期间取得的学术成果59-60
- 致谢60
【相似文献】
中国期刊全文数据库 前8条
1 李军怀;张果谋;于蕾;张t,
本文编号:302324
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/302324.html