当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的生物医学命名实体识别研究

发布时间:2024-01-10 07:43
  随着生物医学应用文献量的快速增长以及自然语言处理(NLP)研究的迅速进展,生物医学文献挖掘所承担的作用变得日益关键。更多的科研工作者把目光转向到了从生物医学资料中获得更有意义的知识,与此同时,深度学习技术的进步有力推动着生物医学领域新文献挖掘模型的开发。但是,由于一般领域文献语料库的单词分布和生物医学特定领域技术文献语料库的单词分布不同,若直接将自然语言处理技术的进步应用于生物医学文本挖掘往往会造成识别精度不高,而且不同句子之间的相关标记可能存在不一致等问题。因此,针对上述问题,本文研究了使用深度学习的方法对生物医学命名实体的识别,主要研究内容如下:(1)本文提出了一种基于RTD改进的预训练数据增强的方法。传统的预训练方法通常采用屏蔽语言模型(MLM)的预训练方法(如BERT)通过用[MASK]替换一些标记来破坏输入,然后训练一个模型来重建原始标记。虽然将它们转移到下游NLP任务时会产生良好的结果,但它们通常需要大量的计算才能有效。作为一种替代方案,本文提出了一种更有效的预训练任务,称为替换令牌检测(RTD),并构造了针对生物医学领域的预训练语言模型Bio ELECTRA。经过实验证明...

【文章页数】:60 页

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 本文的组织结构
第2章 相关研究综述
    2.1 深度学习相关理论
        2.1.1 卷积神经网络(CNN)
        2.1.2 循环神经网络(RNN)与长短期记忆网络(LSTM)
        2.1.3 双向长短期记忆网络(Bi-LSTM)
        2.1.4 Transformer
        2.1.5 生成对抗网络(GAN)
    2.2 命名实体识别相关算法
        2.2.1 BERT及其衍生模型
        2.2.2 条件随机场(CRF)及 BiLSTM-CRF
    2.3 数据与评价指标
        2.3.1 数据集与标注方法
        2.3.2 评价指标
    2.4 本章小结
第3章 基于RTD改进的预训练数据增强方法
    3.1 引言
    3.2 传统的预训练数据增强方法
    3.3 改进的预训练数据增强方法
    3.4 基于 BioELECTRA 的生物医学实体识别预训练模型
    3.5 实验及结果分析
        3.5.1 数据集介绍
        3.5.2 输入/输出表示
        3.5.3 环境配置
        3.5.4 实验结果分析
    3.6 本章小结
第4章 基于注意力机制改进的 BiLSTM-CRF 生物医学命名实体识别框架
    4.1 引言
    4.2 LSTM-CRF 和 BiLSTM-CRF 模型相关理论
    4.3 传统的 BiLSTM-CRF 生物医学命名实体识别框架
    4.4 改进的 BiLSTM-CRF 生物医学命名实体识别框架
        4.4.1 词性与组块分析
        4.4.2 Att-BiLSTM-CRF 生物医学命名实体识别框架
    4.5 实验及结果分析
        4.5.1 对齐函数对 Att-BiLSTM-CRF 模型的影响
        4.5.2 文档级和句子级方法的性能比较
        4.5.3 附加特征对性能的影响
    4.6 生物医学命名实体识别系统设计与实现
    4.7 本章小结
第5章 总结与展望
    5.1 本文工作总结
    5.2 未来展望
参考文献



本文编号:3877781

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3877781.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b780b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com