基于机器学习的生物医学命名实体识别的研究
发布时间:2022-09-17 21:06
在大数据时代的背景下,生物医学的研究正在快速发展,每年都有大量的文献在增加。海量的生物医学文献作为一个巨大的非结构化数据库,提供了丰富的生物医学研究知识,是最重要的生物医学领域资源。因此,如何从这些海量的文献中快速获取专业知识受到了越来越多的关注。生物医学文本挖掘技术在文本知识的自动获取中发挥着重要的作用,而命名实体识别作为该项技术的任务之一,旨在从生物医学文献中识别出指定类型的名称,如蛋白质、DNA、RNA、细胞等,为进一步地抽取关系和其他潜在信息提供了前提。本文的研究工作包含以下三个部分:(1)基于条件随机场的生物医学命名实体识别。使用生物医学语料库,根据生物实体的特性人工设计了15种特征;采用条件随机场算法训练模型,结合单独最优组合法挑选出最优的特征集,分析各个特征对实验结果的影响,经过测试评估,综合评价值F最高可达75.91%。(2)基于双向长短期记忆网络联合条件随机场的生物医学命名实体识别。传统的机器学习算法不仅需要人工选取特征,还需要一定的领域知识;同时模型的好坏取决于高质量的数据集和最优的特征集合,这需要付出众多的人力代价。为了解决传统方法存在的问题,本文提出了基于双向长...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.1.1 课题研究背景
1.1.2 课题研究的意义
1.2 国内外研究现状
1.3 本文的主要研究内容
1.4 本文的组织结构
第二章 相关理论与技术介绍
2.1 生物医学命名实体识别概述
2.2 相关模型介绍
2.2.1 隐马尔可夫模型
2.2.2 条件随机场模型
2.2.3 长短期记忆神经网络模型
2.3 本章小节
第三章 基于CRF的生物医学命名实体识别
3.1 研究内容
3.1.1 构建实验数据集
3.1.2 特征选择
3.2 CRF方法
3.2.1 特征模板
3.2.2 模型训练
3.2.3 评估方法
3.3 实验结果与分析
3.4 本章小结
第四章 基于Bi-LSTM-CRF的生物医学命名实体识别
4.1 词表示模型
4.1.1 独热表示
4.1.2 分布式表示
4.1.3 Skip-gram和CBOW模型
4.2 Bi-LSTM-CRF模型
4.2.1 词向量的训练
4.2.2 实体模型的训练
4.2.3 训练参数
4.3 实验结果与评价
4.4 本章小结
第五章 生物医学命名实体识别系统的设计与实现
5.1 命名实体识别系统的设计
5.1.1 总体架构设计
5.1.2 功能模块设计
5.1.3 系统开发技术
5.2 命名实体识别系统的实现
5.2.1 文献的预处理
5.2.2 实体标注展示
5.2.3 实体查询
5.2.4 图表展示
5.2.5 实体识别关系的展示
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]基于B/S架构的试验数据管理系统设计与实现[J]. 樊丹丹,于慧勇,刘晨. 电子测量技术. 2018(10)
[2]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[3]一种基于Word2Vec的训练效果优化策略研究[J]. 王飞,谭新. 计算机应用与软件. 2018(01)
[4]基于Python的MYSQL数据库访问技术[J]. 黄传禄. 现代信息科技. 2017(04)
[5]面向互联网资源的医学命名实体识别研究[J]. 田家源,杨东华,王宏志. 计算机科学与探索. 2018(06)
[6]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[7]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[8]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
博士论文
[1]生物命名实体识别及生物文本分类[D]. 豆增发.西安电子科技大学 2013
硕士论文
[1]基于文本挖掘的生物命名实体识别算法研究[D]. 高冰涛.西北农林科技大学 2018
[2]基于递归神经网络的生物医学命名实体识别[D]. 金留可.大连理工大学 2016
[3]生物医学领域的命名实体识别和标准化[D]. 范文婷.大连理工大学 2013
[4]一种HMM的学习算法[D]. 张路.西南交通大学 2010
[5]线性链条件随机场训练算法优化的研究[D]. 陈天缘.复旦大学 2010
本文编号:3679939
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.1.1 课题研究背景
1.1.2 课题研究的意义
1.2 国内外研究现状
1.3 本文的主要研究内容
1.4 本文的组织结构
第二章 相关理论与技术介绍
2.1 生物医学命名实体识别概述
2.2 相关模型介绍
2.2.1 隐马尔可夫模型
2.2.2 条件随机场模型
2.2.3 长短期记忆神经网络模型
2.3 本章小节
第三章 基于CRF的生物医学命名实体识别
3.1 研究内容
3.1.1 构建实验数据集
3.1.2 特征选择
3.2 CRF方法
3.2.1 特征模板
3.2.2 模型训练
3.2.3 评估方法
3.3 实验结果与分析
3.4 本章小结
第四章 基于Bi-LSTM-CRF的生物医学命名实体识别
4.1 词表示模型
4.1.1 独热表示
4.1.2 分布式表示
4.1.3 Skip-gram和CBOW模型
4.2 Bi-LSTM-CRF模型
4.2.1 词向量的训练
4.2.2 实体模型的训练
4.2.3 训练参数
4.3 实验结果与评价
4.4 本章小结
第五章 生物医学命名实体识别系统的设计与实现
5.1 命名实体识别系统的设计
5.1.1 总体架构设计
5.1.2 功能模块设计
5.1.3 系统开发技术
5.2 命名实体识别系统的实现
5.2.1 文献的预处理
5.2.2 实体标注展示
5.2.3 实体查询
5.2.4 图表展示
5.2.5 实体识别关系的展示
5.3 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]基于B/S架构的试验数据管理系统设计与实现[J]. 樊丹丹,于慧勇,刘晨. 电子测量技术. 2018(10)
[2]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[3]一种基于Word2Vec的训练效果优化策略研究[J]. 王飞,谭新. 计算机应用与软件. 2018(01)
[4]基于Python的MYSQL数据库访问技术[J]. 黄传禄. 现代信息科技. 2017(04)
[5]面向互联网资源的医学命名实体识别研究[J]. 田家源,杨东华,王宏志. 计算机科学与探索. 2018(06)
[6]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[7]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[8]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
博士论文
[1]生物命名实体识别及生物文本分类[D]. 豆增发.西安电子科技大学 2013
硕士论文
[1]基于文本挖掘的生物命名实体识别算法研究[D]. 高冰涛.西北农林科技大学 2018
[2]基于递归神经网络的生物医学命名实体识别[D]. 金留可.大连理工大学 2016
[3]生物医学领域的命名实体识别和标准化[D]. 范文婷.大连理工大学 2013
[4]一种HMM的学习算法[D]. 张路.西南交通大学 2010
[5]线性链条件随机场训练算法优化的研究[D]. 陈天缘.复旦大学 2010
本文编号:3679939
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3679939.html