面向中文电子病历的医疗实体及关系识别技术研究
发布时间:2022-01-25 05:26
随着医疗信息系统的加快建设,电子病历数量急剧增长。电子病历中不仅包含患者的临床信息(如检查结果、临床诊断等),还包含丰富的医疗实体,这些医疗实体大部分之间存在一定关系。使用自然语言处理技术从电子病历文本中抽取医疗实体以及实体间的语义关系,构建可用于临床决策的医疗知识库,对于推动电子病历在智慧医疗中的应用具有重要意义。目前,电子病历医疗实体识别和实体关系识别的研究主要面向英文电子病历,在中文电子病历上公开的评测及语料较少;另外,已有的研究主要基于传统机器学习方法,这些方法依赖大量人工构造的特征。综上,本文的研究内容是中文电子病历医疗实体识别及实体关系识别,主要的研究工作包括:(1)在标注规则及语料方面,制定了中文电子病历实体关系标注规则,并标注构建了实体关系语料库。在参考2010年I2B2/VA挑战评测发布的英文电子病历标注规范的基础上,并根据中文电子病历的语言和结构特点,制定了适用于中文电子病历的实体关系标注规则。在标注人员熟悉标注规则的前提下,采取传统的标注方案,以抽样检查的方式,确保标注结果真实可靠,共标注了3500份电子病历。(2)在医疗实体识别方面,提出了基于医疗知识注意力增强...
【文章来源】:西北师范大学甘肃省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
医疗实体关系语义图
第2章中文电子病历实体关系标注体系及语料构建13检查结果等。首次病程记录里主要包含医生对患者的诊断结果、诊断依据和诊疗计划等。病例特点是对病史、检查结果等进行全面分析,归纳整理出的病例特征;诊断依据和鉴别诊断是医生根据病例特点给出的初步诊断结果;诊疗计划是根据初步诊断结果和病例特征提出具体的检查项目和治疗措施。这两种类型的电子病历文本中包含了大量的实体与实体关系,其电子病历在不同科室的分布情况如表2-2所示。首次病程记录的数量多于出院小结的电子病历数量,其中包含的实体与实体关系数量也高于出院小结部分,在所有的科室中,普通外科和普通内科的电子病历数量远高于其他科室的电子病历数量。2.3.2语料标注考虑到电子病历文本的特殊性以及标注的成本,我们的语料构建采取了传统的标注模式,标注人员和标注体系制定人员一起标注,遇到难以标注的实体或实体关系,两方经过讨论后达成一致来构建了实体关系语料。我们的标注体系参照了2010年I2B2自然语言挑战评测发布的英文电子病历实体关系标注规范,并在专业人员的指导下完成。对于标注完成的语料,我们还采取抽样检查的方式,确保标注结果真实可靠。最终我们共标注了3500份中文电子病历实体关系语料库。整个标注过程共分为两轮,其中第一轮是预标注部分,是为了让标注人员熟悉标注体系,并对标注人员进行培训,以便于对在标注过程中出现的问题及时进行处理,并对标注规范进行修正。经过预标注使标注体系趋于稳定,便开始正式标注。正式标注和预标注使用相同的标注工具和相同的标注规范。根据出现的问题,补充病历样本并完善规范。图2-2所示为我们的中文电子病历实体关系标注工具。图2-2中文电子病历实体关系标注工具
西北师范大学硕士学位论文 于人工特征,并且泛化性能弱,没有充分考虑到中文电子病历的特点。近年来,神经网络的方法在实体识别任务中取得了较好的表现[56],但是电子病历是一种半结构化的文本数据,包含大量的医学知识、专业术语效果,每个医生对标点,专业术语的使用习惯不一样,导致实体边界难以识别。因此,本文提出一种 BiLSTM-CRF和医疗知识注意力(Medical Knowledge Attention,MKA)机制结合的神经网络结构,医疗知识词典中包含的实体定义能够为电子病历实体识别提供不同的上下文信息,注意力机制可以学习医疗知识词典中实体的语义信息,并用于提升电子病历文本中实体的识别效果,本文提出的模型结构如图 3-1 所示。
【参考文献】:
期刊论文
[1]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[2]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[3]基于知识库的临床决策支持系统构建[J]. 张秀梅,徐建武,程煜华,杨公亮. 中华医院管理杂志. 2014 (06)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
[5]基于UMLS的疾病知识整合框架研究[J]. 李亚子,钱庆,刘峥,方安,洪娜,王军辉. 现代图书情报技术. 2011(02)
[6]电子病历基本规范(试行)[J]. 中国卫生质量管理. 2010(04)
[7]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
[8]电子病历给医疗行为带来的变革[J]. 沈伟. 医学信息学杂志. 2007(04)
本文编号:3607969
【文章来源】:西北师范大学甘肃省
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
医疗实体关系语义图
第2章中文电子病历实体关系标注体系及语料构建13检查结果等。首次病程记录里主要包含医生对患者的诊断结果、诊断依据和诊疗计划等。病例特点是对病史、检查结果等进行全面分析,归纳整理出的病例特征;诊断依据和鉴别诊断是医生根据病例特点给出的初步诊断结果;诊疗计划是根据初步诊断结果和病例特征提出具体的检查项目和治疗措施。这两种类型的电子病历文本中包含了大量的实体与实体关系,其电子病历在不同科室的分布情况如表2-2所示。首次病程记录的数量多于出院小结的电子病历数量,其中包含的实体与实体关系数量也高于出院小结部分,在所有的科室中,普通外科和普通内科的电子病历数量远高于其他科室的电子病历数量。2.3.2语料标注考虑到电子病历文本的特殊性以及标注的成本,我们的语料构建采取了传统的标注模式,标注人员和标注体系制定人员一起标注,遇到难以标注的实体或实体关系,两方经过讨论后达成一致来构建了实体关系语料。我们的标注体系参照了2010年I2B2自然语言挑战评测发布的英文电子病历实体关系标注规范,并在专业人员的指导下完成。对于标注完成的语料,我们还采取抽样检查的方式,确保标注结果真实可靠。最终我们共标注了3500份中文电子病历实体关系语料库。整个标注过程共分为两轮,其中第一轮是预标注部分,是为了让标注人员熟悉标注体系,并对标注人员进行培训,以便于对在标注过程中出现的问题及时进行处理,并对标注规范进行修正。经过预标注使标注体系趋于稳定,便开始正式标注。正式标注和预标注使用相同的标注工具和相同的标注规范。根据出现的问题,补充病历样本并完善规范。图2-2所示为我们的中文电子病历实体关系标注工具。图2-2中文电子病历实体关系标注工具
西北师范大学硕士学位论文 于人工特征,并且泛化性能弱,没有充分考虑到中文电子病历的特点。近年来,神经网络的方法在实体识别任务中取得了较好的表现[56],但是电子病历是一种半结构化的文本数据,包含大量的医学知识、专业术语效果,每个医生对标点,专业术语的使用习惯不一样,导致实体边界难以识别。因此,本文提出一种 BiLSTM-CRF和医疗知识注意力(Medical Knowledge Attention,MKA)机制结合的神经网络结构,医疗知识词典中包含的实体定义能够为电子病历实体识别提供不同的上下文信息,注意力机制可以学习医疗知识词典中实体的语义信息,并用于提升电子病历文本中实体的识别效果,本文提出的模型结构如图 3-1 所示。
【参考文献】:
期刊论文
[1]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[2]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[3]基于知识库的临床决策支持系统构建[J]. 张秀梅,徐建武,程煜华,杨公亮. 中华医院管理杂志. 2014 (06)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
[5]基于UMLS的疾病知识整合框架研究[J]. 李亚子,钱庆,刘峥,方安,洪娜,王军辉. 现代图书情报技术. 2011(02)
[6]电子病历基本规范(试行)[J]. 中国卫生质量管理. 2010(04)
[7]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
[8]电子病历给医疗行为带来的变革[J]. 沈伟. 医学信息学杂志. 2007(04)
本文编号:3607969
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3607969.html
最近更新
教材专著