当前位置:主页 > 医学论文 > 生物医学论文 >

结合先验知识及注意力机制的生物医学实体识别和关系抽取

发布时间:2025-02-07 17:29
  生物医学的实体识别和关系抽取是从文本数据中识别特定的实体,并对实体间的关系进行判断。电子病历记录了病人详细的诊疗经过,对其进行命名实体识别,可以从中提取患病部位,发病症状,治疗药物等重要信息;再通过关系抽取判断实体之间的关系,可以用于更多医学应用,例如通过药物关系抽取可以预防多种药物同时使产生的不良药物反应等。因此研究生物医学命名实体识别和关系抽取对构建生物医学领域知识图谱,帮助医生进行病例研究分析,促进智慧医疗建设等有重要意义。命名实体识别可以分为实体类别识别和边界识别。相比英文电子病历的命名实体识别,中文电子病历的实体识别更加困难。由于中文词语之间没有间隔,在实体的边界识别上极易产生错误。针对这个问题,本文提出了结合实体先验知识和自注意力机制的实体识别方法,以Bi LSTM-CRF作为基础模型,将区分实体和非实体的词性标签作为模型的先验知识,对实体边界进行初步区分;再通过自注意力机制提高同个实体内的字符关联权重,进一步提升模型对实体边界的识别能力。本文在中文电子病历命名实体识别任务上进行实验,相比基准模型,F1值提高了12.75%,并且在实体边界识别问题上有明显的改进。药物关系提取是...

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

图1-1位置编码示意图

图1-1位置编码示意图

华南理工大学硕士学位论文6导致从同一个句子中拆分出来的样例,除了目标药物对的位置不同之外,其余部分都是相同的。因此会在句子中加入距离编码信息,来增加样例的区分度。距离编码向量通常有两个,分别对应两个药物,一般定义为P1=index()index(1)和P2=index()inde....


图2-1CNN-DNN模型结构图[24]

图2-1CNN-DNN模型结构图[24]

华南理工大学硕士学位论文14CNN-DNN模型CNN-DNN模型是早期用于命名实体识别的神经网络模型,先通过其他一些方式训练得到词向量,用CNN网络对句子做卷积,提取词语的邻居信息,再用DNN网络进一步提取信息,最终输入到softmax或者CRF网络得到标签序列。CNN-DNN模....


图2-2BiLSTM-CRF模型结构图

图2-2BiLSTM-CRF模型结构图

第二章相关理论和技术15在CNN-DNN模型中,主要通过CNN网络的卷积池化操作提取词语窗口内的邻居信息,难以处理词语的长依赖问题,而且模型单向地处理句子,只能获得词语的前文信息。Huang等人[25]提出了BiLSTM-CRF模型,模型通过双向的LSTM网络同时提取词的上下文信....


图2-3LSTM网络结构图

图2-3LSTM网络结构图

第二章相关理论和技术15在CNN-DNN模型中,主要通过CNN网络的卷积池化操作提取词语窗口内的邻居信息,难以处理词语的长依赖问题,而且模型单向地处理句子,只能获得词语的前文信息。Huang等人[25]提出了BiLSTM-CRF模型,模型通过双向的LSTM网络同时提取词的上下文信....



本文编号:4031047

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/4031047.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9456***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com