生物医学命名实体识别及关系提取的研究与系统构建

发布时间:2021-10-15 00:03
  生物医学文献数量巨大,并且每天仍以极快的速度增长。在同行评审的期刊上平均每天有3000篇新的文章发表,截至2019年,仅Pubmed就有2900万篇文章。包含有关新发现和新见解的有价值信息报告将不断添加到本已大量的文献中。因此,越来越需要用于从文献中提取信息的精确的生物医学文本挖掘工具。生物医学命名实体数量巨大,命名规则不统一,实体构词复杂,给生物医学命名实体识别带来了很大的困难。传统机器学习算法对人工特征提取依赖很大,特征提取的好坏直接影响到实体识别的准确率。而在生物医学领域,人工提取特征以及标注数据集的成本都是非常巨大的。近年来,不依赖于人工特征的深度学习方法在许多领域都取得了很大的进步。本文提出一种Glove-字符级BLSTM-BLSTM-CRF的模型对生物医学命名实体进行识别。首先利用Glove模型训练单词具有语义特征的词向量,用BLSTM训练单词具有字符形态特征的词向量,两者结合作为单词的最终表示,输入BLSTM-CRF深度学习模型,对实体类别进行识别。实验结果表明,在不依赖任何人工特征及规则的前提下,该模型在JNLPBA2004生物医学命名实体识别任务中取得了较好的结果,F... 

【文章来源】:内蒙古农业大学内蒙古自治区

【文章页数】:50 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 引言
    1.1 研究背景及意义
    1.2 国内外研究概况
        1.2.1 生物医学命名实体识别
        1.2.2 生物医学关系提取
    1.3 研究目标及内容
2 生物医学命名实体识别
    2.1 数据标注方式
    2.2 词向量
        2.2.1 one-hot词向量
        2.2.2 word2vec词向量
        2.2.3 Glove词向量
    2.3 长短期记忆网络(LSTM)
        2.3.1 循环神经网络(RNN)
        2.3.2 长短期记忆网络(LSTM)
    2.4 Glove-字符BLSTM-BLSTM-CRF模型
        2.4.1 模型整体框架
        2.4.2 Glove模型
        2.4.3 字符级BLSTM
        2.4.4 BLSTM-CRF
    2.5 实验
        2.5.1 数据
        2.5.2 实验环境与训练参数
        2.5.3 实验结果
3 生物医学关系提取
    3.1 Kindred
        3.1.1 数据格式
        3.1.2 解析文本
        3.1.3 向量化
        3.1.4 分类
    3.2 实验
        3.2.1 数据
        3.2.2 实验结果
4 系统设计及搭建
    4.1 系统设计目标
    4.2 Django框架
        4.2.1 组件
        4.2.2 SQLite
        4.2.3 框架结构
        4.2.4 框架流程
    4.3 数据库设计
        4.3.1 实体信息表
        4.3.2 文献信息表
        4.3.3 库内文献信息表
        4.3.4 关系信息表
        4.3.5 数据库E-R图
    4.4 文献爬取
        4.4.1 Pubmed
        4.4.2 Webdriver
        4.4.3 爬取流程
    4.5 系统实现
        4.5.1 系统功能模块
        4.5.2 NER(命名实体识别)模块
        4.5.3 信息检索模块
        4.5.4 文献爬取模块
5 总结与展望
致谢
参考文献
作者简介



本文编号:3437061

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3437061.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f98e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com