当前位置:主页 > 医学论文 > 医卫管理论文 >

基于领域词典与CRF双层标注的中文电子病历实体识别

发布时间:2021-03-15 16:50
  医疗实体识别是电子病历文本信息抽取的基本任务.针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体.该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文医疗实体识别的高效性. 

【文章来源】:工程科学学报. 2020,42(04)北大核心

【文章页数】:7 页

【参考文献】:
期刊论文
[1]基于深度学习的人体低氧状态识别[J]. 于露,金龙哲,王梦飞,徐明伟.  工程科学学报. 2019(06)
[2]基于深度学习的电子病历命名实体识别[J]. 夏宇彬,郑建立,赵逸凡,徐霄玲.  电子科技. 2018(11)
[3]基于CRF与RUTA规则相结合的卒中入院记录医学实体识别及应用[J]. 许源,葛艳秋,王强,熊刚,易应萍.  中山大学学报(医学版). 2018(03)
[4]基于多特征融合的中文电子病历命名实体识别[J]. 张祥伟,李智.  软件导刊. 2017(02)
[5]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.  软件学报. 2016(11)
[6]CRF与规则相结合的医学病历实体识别[J]. 栗伟,赵大哲,李博,彭新茗,刘积仁.  计算机应用研究. 2015(04)
[7]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江.  计算机应用. 2009(S1)

硕士论文
[1]基于神经网络的中文电子病历命名实体识别[D]. 申站.北京邮电大学 2018
[2]基于半监督学习的中文电子病历分词和名实体挖掘[D]. 张立邦.哈尔滨工业大学 2014



本文编号:3084493

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3084493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84081***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com