基于词典与机器学习的基因命名实体识别机制研究
发布时间:2017-05-31 11:18
本文关键词:基于词典与机器学习的基因命名实体识别机制研究,,由笔耕文化传播整理发布。
【摘要】:基因命名实体识别是在分子生物学及医学领域对基因、RNA、DNA蛋白质等专业词汇进行识别和分类。海量的生物医学文献为挖掘文本中的隐含知识提供了条件,为了得到基因、蛋白质等命名实体之间的关联关系,首先要在文献中识别基因、蛋白质等命名实体,因此基因命名实体识别是知识关系抽取、知识关系计算等文本挖掘技术的基础。 基于词典的命名实体识别方法简单实用,很容易在应用系统中部署使用,但是识别效果受限于词典的规模与质量。基于机器学习的命名实体识别方法不仅可以识别出训练语料中已标注的基因命名实体,而且可以较好的识别出新出现的基因命名实体,但是识别效果取决于语料库的质量和数量,因此目前还处于试验探索阶段。为了充分利用基于词典方法在实用性方面的优势以及机器学习方法在识别新命名实体方面的优势,本文提出了基于词典和机器学习相结合的基因命名实体识别方法,并在以下几个方面进行了探索和研究。 首先,本文以UMLS作为术语来源,通过UMLS的语义类型获取基因领域术语,并将基因术语按照实体语料的格式进行转换,构建基因实体词典。 其次,总结了已有研究中基因命名实体特征的构建方法,并创造性的提出了词典特征的构建方法,最终本文基于词典和语料构建了15类基因命名实体特征。 再次,本文基于GENIA3.02语料以及开源的实体识别工具CRF++,构建了词典与机器学习相结合的基因命名实体识别模型,并进行了大量有针对性的实验和测试。实验结果表明,与基于机器学习的实体识别方法相比,本文提出的词典与机器学习相结合的方案,在获得较高的实体识别性能的同时,能够有效的降低实体识别的时间复杂度。 最后,基于实验结果和数据分析,本文提出了基于词典和机器学习的基因命名实体识别机制,对实验结果进行了讨论并提出了下一步研究建议。
【关键词】:基因命名实体 命名实体识别 词典 机器学习 条件随机域
【学位授予单位】:北京协和医学院
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP181;G434
【目录】:
- 目录4-6
- 表目录6-8
- 图目录8-9
- 摘要9-10
- Abstract10-11
- 1 前言11-16
- 1.1 研究背景11
- 1.2 相关概念及研究范围11-12
- 1.3 研究内容12-13
- 1.4 研究方法与技术路线13-14
- 1.5 论文组织结构14-16
- 2 基因命名实体识别研究进展16-25
- 2.1 生物医学命名实体识别国际会议16-18
- 2.1.1 JNLPBA16-17
- 2.1.2 BioCreAtlvE17-18
- 2.2 基因命名实体识别方法18-25
- 2.2.1 基于词典18-19
- 2.2.2 基于规则19-20
- 2.2.3 基于机器学习20-25
- 3 词典构建与机器学习实体特征构建25-44
- 3.1 词典构建25-28
- 3.2 机器学习的实体特征构建28-44
- 3.2.1 单词特征(Word features)28-29
- 3.2.2 构词特征(Word structure feature)29-30
- 3.2.3 关键词特征(Keywords feature)30-31
- 3.2.4 词缀特征(Affix feature)31-33
- 3.2.5 词形特征(Morphology feature)33-34
- 3.2.6 边界词特征(Boundary word feature)34-36
- 3.2.7 一元词特征(Unary feature)36
- 3.2.8 嵌套词特征(Nested feature)36-37
- 3.2.9 停用词特征(Stop word feature)37-38
- 3.2.10 通用词特征(Common word feature)38-39
- 3.2.11 上下文特征(Context features)39-40
- 3.2.12 词性特征(Part of speech features)40-41
- 3.2.13 词典特征(Dict features)41-44
- 4 基于词典和机器学习的基因命名实体识别模型实现44-51
- 4.1 系统流程44-46
- 4.2 确定实体标注方法46
- 4.3 准备实验语料46-47
- 4.4 构建特征模板47-49
- 4.5 执行CRF++机器学习模型49-51
- 5 实验结果与分析51-61
- 5.1 评测指标51
- 5.2 各语料特征对基因命名实体识别的影响51-53
- 5.3 基因实体识别的特征选择53-55
- 5.4 不同标注集的识别结果55
- 5.5 词典和机器学习相结合的识别结果55-57
- 5.6 识别结果分析57-61
- 5.6.1 错误类型57-58
- 5.6.2 识别错误原因分析58-59
- 5.6.3 错误修正机制59-61
- 6 结论61-65
- 6.1 基因实体识别机制61-62
- 6.2 实证研究结论62-63
- 6.3 后续研究建议63-65
- 致谢65-66
- 参考文献66-70
- 附录70-77
【参考文献】
中国期刊全文数据库 前4条
1 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
2 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
3 汪政;邵良杉;;多类支持向量机分类算法—DDAG[J];计算机系统应用;2010年07期
4 袁里驰;;基于改进的隐马尔科夫模型的词性标注方法[J];中南大学学报(自然科学版);2012年08期
中国硕士学位论文全文数据库 前3条
1 王琦;词典和机器学习相结合的生物命名实体识别[D];大连理工大学;2009年
2 郑强;生物医学命名实体识别研究[D];国防科学技术大学;2009年
3 周荣鹏;生物医学文献中命名实体的识别[D];大连理工大学;2009年
本文关键词:基于词典与机器学习的基因命名实体识别机制研究,由笔耕文化传播整理发布。
本文编号:409327
本文链接:https://www.wllwen.com/jiaoyulunwen/wangluojiaoyulunwen/409327.html