基于集成模型的生物医学命名实体识别研究

发布时间:2021-10-27 13:34
  命名实体识别任务是生物医学文本挖掘中基础且重要的任务之一,其对于实体识别的准确率会影响后续利用相关医学领域信息的效率,如关系抽取和事件抽取等相关任务的效率会受到影响。在现在的命名实体识别任务中,大多数使用的方法是神经网络与条件随机场结合的方法,神经网络比传统机器学习方法的好处在于不需要大量人工参与避免了特征构造的资源浪费。但是,目前大多数模型存在几个问题:一、时序特征获取不充分,深层隐含信息获取不全面。忽略了文本的局部特征,生物医学文献普遍句式较长,存在大量冗余虚词,重要的词汇混在大量虚词中,使得识别变得更加困难。二、空间局部特征使用不完全,以卷积神经网络(CNN)为代表的空间局部特征提取模型为例,模型速度快,但信息获取不全,容易丢失重要信息,识别效果不佳。故本文从改进模型结构入手,我们提出了一个基于双向长短期记忆神经网络(BiLSTM)和卷积神经网络的集成模型,并使用了注意力机制(Attention)和扩张卷积核对这两个模型分别进行了改进,以增加关键信息的权重并获得更广泛的信息。集成模型BiLSTM-ATT-HDC中的两个模型,一个是BiLSTM-ATT-CRF模型,是基于BiLST... 

【文章来源】:大连海事大学辽宁省 211工程院校

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 基于词典和规则的方法
        1.2.2 基于传统机器学习的方法
        1.2.3 基于深度学习的方法
    1.3 本文研究内容
    1.4 本文组织结构
2 相关理论概述
    2.1 词表示
        2.1.1 one-hot向量表示
        2.1.2 分布式词向量表示
    2.2 条件随机场
        2.2.1 条件随机场算法原理
        2.2.2 条件随机场算法的优缺点
    2.3 神经网络
        2.3.1 前馈神经网络
        2.3.2 循环神经网络
        2.3.3 卷积神经网络
        2.3.4 Dropout和优化方法
    2.4 本章小结
3 基于循环神经网络与注意力机制结合的命名实体识别
    3.1 引言
    3.2 特殊的循环神经网络
        3.2.1 长短时记忆神经网络
        3.2.2 双向长短时记忆神经网络
    3.3 基于BiLSTM-ATT-CRF的生物医学命名实体识别
        3.3.1 BiLSTM-CRF框架
        3.3.2 Attention思想
        3.3.3 Attention机制公式
    3.4 结果分析
        3.4.1 实验数据与评价指标
        3.4.2 实验设计
        3.4.3 BiLSTM-ATT-CRF模型结果分析
    3.5 本章小结
4 基于集成模型的命名实体识别
    4.1 引言
    4.2 BiLSTM-ATT-HDC集成模型
        4.2.1 总体模型架构
        4.2.2 HDCNN-CRF模型
    4.3 结果分析
        4.3.1 HDCNN-CRF模型结果分析
        4.3.2 BiLSTM-ATT-HDC集成模型结果分析
    4.4 本章小结
结论
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果


【参考文献】:
期刊论文
[1]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平.  计算机应用研究. 2010(03)



本文编号:3461707

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3461707.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a02af***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com