基于文本挖掘的生物事件抽取关键问题研究
发布时间:2023-04-04 23:25
生物事件抽取以结构化的形式呈现了海量生物医学文献中生物分子之间潜在的细粒度复杂关系,广泛地应用于系统生物学领域,为疾病的诊断、预防、治疗以及新药的研发和生命科学研究提供了重要的依据。一个完整的生物事件由触发事件发生的触发词以及事件的参与者(要素)组成。触发词的类别决定着整个生物事件的类别,同时触发词识别的性能直接影响着要素检测的性能,所以触发词识别是生物事件抽取的核心任务。而要素检测用于识别事件的参与者,进而构成完整的生物事件,对于事件的生成具有重要意义。因此,本文围绕生物事件抽取中的关键问题——触发词识别和要素检测展开研究,主要内容如下:对于基于统计机器学习方法的触发词识别,提出了一种基于两阶段和特征选择的识别方法。该方法将触发词识别分为两个阶段。在第一阶段中,仅判断当前词是否为触发词;在第二阶段中,对预测的触发词正例判定具体的触发词类型。两阶段方法将较为复杂的分类问题分解为两个相对简单的子问题,降低了问题的难度,同时对语料中存在的类不平衡问题具有一定的缓解作用,提升了触发词的识别性能。此外,本文通过特征选择算法为不同阶段选择适合的特征,进一步提升了每个阶段的分类性能。该方法在多个生...
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景与意义
1.2 研究现状和存在的问题
1.2.1 基于传统方法的触发词识别研究现状
1.2.2 基于传统方法的要素检测研究现状
1.2.3 基于传统方法的事件抽取研究现状
1.2.4 基于深度学习方法的相关研究
1.2.5 存在的问题
1.3 主要研究思路与内容
2 基于两阶段和特征选择的触发词识别
2.1 生物事件触发词识别的相关研究
2.1.1 生物事件触发词识别任务
2.1.2 基于统计机器学习的生物事件触发词识别相关研究
2.2 基于两阶段和特征选择的触发词识别模型
2.2.1 文本预处理
2.2.2 过滤负例
2.2.3 特征选择
2.2.4 触发词识别
2.2.5 触发词分类
2.3 实验与分析
2.3.1 实验数据
2.3.2 评价方法
2.3.3 参数选择
2.3.4 实验结果与分析
2.3.5 与其他方法的性能比较
2.3.6 其他语料的触发词识别性能分析
2.4 本章小结
3 基于句子向量和词级注意力机制的触发词识别
3.1 基于深度学习的生物事件触发词识别研究
3.2 输入数据的向量表示
3.2.1 依存词向量
3.2.2 句子向量
3.3 基于句子向量和词级注意力的触发词识别
3.3.1 实例构建
3.3.2 LSTM神经网络
3.3.3 基于句子向量和读入门的BLSTM模型
3.3.4 融合词级注意力的BLSTM模型
3.3.5 训练和分类
3.3.6 实验与分析
3.4 基于SE-Att-BLSTM和两阶段的触发词识别
3.4.1 实例构建
3.4.2 两阶段SE-Att-BLSTM方法
3.4.3 实验与分析
3.5 本章小结
4 基于多级注意力机制的要素检测及事件构成
4.1 生物事件要素检测相关研究
4.1.1 生物事件要素检测任务
4.1.2 生物事件要素检测研究现状分析
4.2 基于BLSTM和多级注意力机制的要素检测
4.2.1 简单生物事件的要素检测
4.2.2 复杂生物事件的要素检测
4.2.3 多级注意力机制
4.2.4 训练和分类
4.3 生物事件构成
4.3.1 生物事件抽取流程
4.3.2 生物事件后处理
4.4 实验及分析
4.4.1 实验设定
4.4.2 实验性能分析
4.4.3 与其他方法的性能比较
4.5 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
本文编号:3782259
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 研究背景与意义
1.2 研究现状和存在的问题
1.2.1 基于传统方法的触发词识别研究现状
1.2.2 基于传统方法的要素检测研究现状
1.2.3 基于传统方法的事件抽取研究现状
1.2.4 基于深度学习方法的相关研究
1.2.5 存在的问题
1.3 主要研究思路与内容
2 基于两阶段和特征选择的触发词识别
2.1 生物事件触发词识别的相关研究
2.1.1 生物事件触发词识别任务
2.1.2 基于统计机器学习的生物事件触发词识别相关研究
2.2 基于两阶段和特征选择的触发词识别模型
2.2.1 文本预处理
2.2.2 过滤负例
2.2.3 特征选择
2.2.4 触发词识别
2.2.5 触发词分类
2.3 实验与分析
2.3.1 实验数据
2.3.2 评价方法
2.3.3 参数选择
2.3.4 实验结果与分析
2.3.5 与其他方法的性能比较
2.3.6 其他语料的触发词识别性能分析
2.4 本章小结
3 基于句子向量和词级注意力机制的触发词识别
3.1 基于深度学习的生物事件触发词识别研究
3.2 输入数据的向量表示
3.2.1 依存词向量
3.2.2 句子向量
3.3 基于句子向量和词级注意力的触发词识别
3.3.1 实例构建
3.3.2 LSTM神经网络
3.3.3 基于句子向量和读入门的BLSTM模型
3.3.4 融合词级注意力的BLSTM模型
3.3.5 训练和分类
3.3.6 实验与分析
3.4 基于SE-Att-BLSTM和两阶段的触发词识别
3.4.1 实例构建
3.4.2 两阶段SE-Att-BLSTM方法
3.4.3 实验与分析
3.5 本章小结
4 基于多级注意力机制的要素检测及事件构成
4.1 生物事件要素检测相关研究
4.1.1 生物事件要素检测任务
4.1.2 生物事件要素检测研究现状分析
4.2 基于BLSTM和多级注意力机制的要素检测
4.2.1 简单生物事件的要素检测
4.2.2 复杂生物事件的要素检测
4.2.3 多级注意力机制
4.2.4 训练和分类
4.3 生物事件构成
4.3.1 生物事件抽取流程
4.3.2 生物事件后处理
4.4 实验及分析
4.4.1 实验设定
4.4.2 实验性能分析
4.4.3 与其他方法的性能比较
4.5 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
本文编号:3782259
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3782259.html
最近更新
教材专著