基于预训练语言模型的生物医学事件抽取方法研究

发布时间:2024-06-11 04:09
  研究生物实体之间的复杂关系网络对于揭示生物体的奥秘具有重要作用,而这些知识信息往往存在于生物医学文献中,如何自动从大量文献中挖掘出有用的结构化信息成为一个重要的研究课题。生物医学事件关注生物医学分子的具体表现行为,定义了相对于粗粒度的二元关系来说更加细粒度的复杂关系,对药物研制和疾病预防具有重要意义,生物医学事件抽取逐渐成为研究的热点。生物医学事件抽取的目的在于识别事件触发词及与之相关的要素。近年来生物医学事件抽取获得越来越多的关注,基于规则、传统机器学习和神经网络的方法相继被提出。然而医学事件存在嵌套的现象,加上同一个触发词可能具有多种事件类型,现有方法的事件抽取性能并不是很高。为此,本文将事件抽取分为触发词识别、要素检测和后处理三个阶段,提出新的事件抽取方法。考虑到预训练语言模型可以有效解决一词多义的现象,可以对同一触发词根据不同上下文生成多种语义表示,本文将结合预训练语言模型采用两种不同的方式来实现事件触发词识别。一是用预训练语言模型来提取深层语境词表示,然后将深层语境词表示与传统的预训练词向量组合输入到双向长短时记忆神经网络Bi-LSTM(Bi-directional Long...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文的主要工作和创新点
    1.4 论文组织结构
第2章 生物医学事件抽取相关知识与技术
    2.1 生物医学事件抽取流程
    2.2 注意力机制
    2.3 预训练语言模型
        2.3.1 ELMo
        2.3.2 BERT
    2.4 实验数据集及评价指标
    2.5 本章小结
第3章 生物医学事件触发词识别
    3.1 数据预处理与标记规则
    3.2 组合不同词表示的Bi LSTM-CRF触发词识别
        3.2.1 词表示
        3.2.2 Bi-LSTM-CRF
    3.3 基于BERT微调的触发词识别
        3.3.1 BERT编码层
        3.3.2 分类输出层
    3.4 实验结果与分析
        3.4.1 主要参数设置
        3.4.2 实验结果分析
    3.5 本章小结
第4章 生物医学事件要素检测与事件生成
    4.1 要素实例生成
    4.2 基于自注意力和实体注意力的要素检测
        4.2.1 输入层
        4.2.2 自注意力层
        4.2.3 Bi-LSTM层
        4.2.4 实体注意力层
        4.2.5 分类输出层
    4.3 基于BERT微调的要素检测
        4.3.1 基于BERT的上下文及候选对信息编码层
        4.3.2 分类输出层
    4.4 事件生成
    4.5 实验结果与分析
        4.5.1 主要参数设置
        4.5.2 实验结果分析
    4.6 本章小结
第5章 总结与展望
    5.1 总结
    5.2 展望
致谢
参考文献
附录1 攻读学位期间的研究成果
详细摘要



本文编号:3992385

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3992385.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29e1f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com