生物医学文本挖掘若干关键技术研究
发布时间:2021-04-26 22:04
生物医学文献作为学术研究成果的主要载体,现已成为重要的生物医学领域资源,为研究提供了丰富的知识来源。结合领域需求,采用有效的文本挖掘技术从海量生物医学文献中自动快速、准确地获取相关信息,将对生命科学领域的研究产生极大的推动作用。而基于传统机器学习的文本挖掘方法受浅层模型表示能力的限制,提升空间变得相对有限。近年,随着基于神经网络的深度学习研究的兴起,深度学习在语音、图像和文本处理上都取得了突破性进展,展示出了潜在的应用价值。为此,本文围绕基于深度学习方法的生物医学文本挖掘关键技术,从生物医学文本分类、命名实体识别和关系抽取三个任务展开了研究。对于生物医学文本分类任务,首先针对在小规模的生物医学领域训练数据上神经网络方法无法充分发挥其优势的问题,提出了一种神经网络集成的文本分类方法。该方法通过引入相关数据预训练模块来提升神经网络模型性能,并利用逻辑回归模型对多个神经网络模型结果进行集成。另一方面,针对目前大多数神经网络方法未考虑领域知识的问题,提出了一种知识增强的自注意力卷积神经网络方法,通过多通道网络结构来充分利用领域知识。实验表明,该方法能够有效利用生物医学实体和概念信息提升神经网络...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
主要符号表
1 绪论
1.1 研究背景与意义
1.2 国内外相关工作研究进展
1.2.1 生物医学文本分类研究进展
1.2.2 生物医学命名实体识别研究进展
1.2.3 生物医学关系抽取研究进展
1.3 本文主要研究思路与内容
2 生物医学文本分类
2.1 引言
2.2 相关工作
2.3 基于神经网络集成的生物医学文本分类方法
2.3.1 文本预处理
2.3.2 特征表示
2.3.3 神经网络模型
2.3.4 模型集成
2.3.5 实验与分析
2.4 融合领域知识的生物医学文本分类方法
2.4.1 领域知识向量表示
2.4.2 知识增强的自注意力卷积神经网络模型
2.4.3 实验与分析
2.5 本章小结
3 生物医学命名实体识别
3.1 引言
3.2 相关工作
3.2.1 化学药物实体识别
3.2.2 注意力机制
3.2.3 中文命名实体识别
3.3 基于注意力机制的文档级化学药物实体识别方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 实验与分析
3.4 基于笔画ELMo的中文电子病历命名实体识别方法
3.4.1 基于笔画的中文ELMo模型
3.4.2 额外特征
3.4.3 神经网络模型
3.4.4 实验与分析
3.5 本章小结
4 生物医学实体和关系联合抽取
4.1 引言
4.2 相关工作
4.3 基于神经网络的生物医学实体和关系联合抽取方法
4.3.1 标注策略
4.3.2 抽取规则
4.3.3 特征表示
4.3.4 端对端实体关系抽取模型
4.4 实验与分析
4.4.1 实验设置
4.4.2 标注策略和抽取规则对模型性能的影响
4.4.3 ELMo向量对模型性能的影响
4.4.4 与其他方法性能对比
4.4.5 结果样例分析
4.5 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[2]基于生物医学文献的化学物质致病关系抽取[J]. 李智恒,桂颖溢,杨志豪,林鸿飞,王健. 计算机研究与发展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[4]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[5]融合全局词语边界特征的中文命名实体识别方法[J]. 刘冰洋,伍大勇,刘欣然,程学旗. 中文信息学报. 2017(02)
[6]利用词表示和深层神经网络抽取蛋白质关系[J]. 李丽双,蒋振超,万佳,黄德根. 中文信息学报. 2017(01)
[7]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[8]MBNER:面向生物医学领域的多种实体识别系统[J]. 杨娅,杨志豪,林鸿飞,宫本东,王健. 中文信息学报. 2016(01)
[9]基于特征耦合泛化的药名实体识别[J]. 何林娜,杨志豪,林鸿飞,李彦鹏,唐利娟. 中文信息学报. 2014(02)
[10]基于启发式规则的中文化学物质命名识别研究[J]. 李楠,郑荣廷,吉久明,滕青青. 现代图书情报技术. 2010(05)
本文编号:3162197
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
主要符号表
1 绪论
1.1 研究背景与意义
1.2 国内外相关工作研究进展
1.2.1 生物医学文本分类研究进展
1.2.2 生物医学命名实体识别研究进展
1.2.3 生物医学关系抽取研究进展
1.3 本文主要研究思路与内容
2 生物医学文本分类
2.1 引言
2.2 相关工作
2.3 基于神经网络集成的生物医学文本分类方法
2.3.1 文本预处理
2.3.2 特征表示
2.3.3 神经网络模型
2.3.4 模型集成
2.3.5 实验与分析
2.4 融合领域知识的生物医学文本分类方法
2.4.1 领域知识向量表示
2.4.2 知识增强的自注意力卷积神经网络模型
2.4.3 实验与分析
2.5 本章小结
3 生物医学命名实体识别
3.1 引言
3.2 相关工作
3.2.1 化学药物实体识别
3.2.2 注意力机制
3.2.3 中文命名实体识别
3.3 基于注意力机制的文档级化学药物实体识别方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 实验与分析
3.4 基于笔画ELMo的中文电子病历命名实体识别方法
3.4.1 基于笔画的中文ELMo模型
3.4.2 额外特征
3.4.3 神经网络模型
3.4.4 实验与分析
3.5 本章小结
4 生物医学实体和关系联合抽取
4.1 引言
4.2 相关工作
4.3 基于神经网络的生物医学实体和关系联合抽取方法
4.3.1 标注策略
4.3.2 抽取规则
4.3.3 特征表示
4.3.4 端对端实体关系抽取模型
4.4 实验与分析
4.4.1 实验设置
4.4.2 标注策略和抽取规则对模型性能的影响
4.4.3 ELMo向量对模型性能的影响
4.4.4 与其他方法性能对比
4.4.5 结果样例分析
4.5 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[2]基于生物医学文献的化学物质致病关系抽取[J]. 李智恒,桂颖溢,杨志豪,林鸿飞,王健. 计算机研究与发展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[4]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[5]融合全局词语边界特征的中文命名实体识别方法[J]. 刘冰洋,伍大勇,刘欣然,程学旗. 中文信息学报. 2017(02)
[6]利用词表示和深层神经网络抽取蛋白质关系[J]. 李丽双,蒋振超,万佳,黄德根. 中文信息学报. 2017(01)
[7]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[8]MBNER:面向生物医学领域的多种实体识别系统[J]. 杨娅,杨志豪,林鸿飞,宫本东,王健. 中文信息学报. 2016(01)
[9]基于特征耦合泛化的药名实体识别[J]. 何林娜,杨志豪,林鸿飞,李彦鹏,唐利娟. 中文信息学报. 2014(02)
[10]基于启发式规则的中文化学物质命名识别研究[J]. 李楠,郑荣廷,吉久明,滕青青. 现代图书情报技术. 2010(05)
本文编号:3162197
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3162197.html