基于Lattice LSTM的医学文本中文命名实体识别研究与实现

发布时间:2021-01-18 12:09
  医学文本数据中记录着详细的临床资料,由于包含大量真实且珍贵的临床信息而受到科研工作者的关注。命名实体识别是文本信息处理的基础,是充分挖掘和利用医学文本中宝贵信息的重要环节。通过命名实体识别技术能够准确识别出医学文本中人们所需要的信息,可以帮助医务人员进行临床决策、循证医学、疫情疾病监控,从而提高医院的整体医疗质量。本文提出了一种基于Lattice LSTM(Long Short-Term Memory)的医学文本命名实体识别算法。该算法针对现阶段医学文本中文命名实体识别算法无法同时兼顾字符序列信息和防止错误传递问题进行了优化,结合使用医学文本序列的字符信息和词语信息,通过正确识别命名实体的文本边界来提升整体的命名实体识别效果。在词嵌入层,本文使用大量医学文本和专业医学词典训练字、词向量模型,利用字、词向量模型可以把医学文本信息更好的嵌入到算法模型中。为了验证算法的有效性,在竞赛数据和四川省肿瘤医院的首次病程记录数据上进行了测试,对比医学文本中文命名实体识别领域的另外两个经典算法条件随机场(Conditional Random Field,CRF)和LSTM-CRF,结果显示无论是竞赛数... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于Lattice LSTM的医学文本中文命名实体识别研究与实现


四川省肿瘤医院的病程记录出院小结是另一类重要的电子病历医学文本,描述了医生对患者在住院这段时间内诊治情况的概述

算法流程图,电子病历,隐私


图 3-1 算法流程图实现段文本数据主要来自电子病历中的病程记录,病程记录,由主诉、现病史、既往史和一般情况等章节共同构都是独立的,语言风格也各有不同,所以为了模型训相同章节的文本内容组合在一起,而不是将每一份完进行模型训练。合并和规范过程中,进行了以下几步操作。。在使用电子病历的同时,要保证电子病历中的个除电子病历中的隐私信息。在获取到电子病历时,医去隐私化处理,根据隐私内容长度,做了一个文本长

示意图,原始医学,文本,文本数据


通过医学文本数据对应的标注数据,我们可以把原们模型能够接收的参数形式。标注数据的格式为“命 实体类别”,命名实体是原始医学文本数据中出现的实指的是该名词在文本中的位置,实体类别则是该名词原始医学文本数据如图 3-2 所示,这份原始医学文本数-3 所示,根据这份标注数据,我们就可以将原始医学文果。这种标注方式被称为 BIO 标注模式,对于命名实的第一个字符使用 B 开头,这次命名实体词组的之后B 或 I 的后面加上这个词组所属的实体类别的字符标识位,“S”表示的是症状等,B 或 I 与实体类别的字符标图 3-2 原始医学文本数据示意图

【参考文献】:
期刊论文
[1]基于CRF与规则相结合的中文电子病历命名实体识别研究[J]. 翟菊叶,陈春燕,张钰,陈玉娥,刘玉文.  包头医学院学报. 2017(11)
[2]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏.  自动化学报. 2014(08)
[3]MVC模式在Web管理信息系统中的应用[J]. 徐春雨.  福建电脑. 2014(04)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹.  中国生物医学工程学报. 2011(02)
[5]卫生部关于印发《电子病历系统功能规范(试行)》的通知[J].   中国药房. 2011(08)
[6]电子病历基本规范(试行)[J].   中国卫生质量管理. 2010(04)

硕士论文
[1]基于隐马尔科夫模型的重型肝炎演化研究[D]. 张玲.重庆大学 2015



本文编号:2984922

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2984922.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2256***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com