结合主动学习的中文医疗命名实体识别研究

发布时间:2021-02-04 06:10
  在医疗临床领域,能够准确地识别电子病历中的命名实体,无论对于构建完善的医疗知识库,还是构建精准的患者用户画像都具有重要的意义。在中文命名实体识别中,由于中文分词的词边界问题和汉语表述的多样性,目前还不能够做到精准识别中文电子样例中的命名实体。当前存在的中文医疗领域命名实体识别(Chinese Medical Named Entity Recognition,简称CMNER,下同)的深度学习方法中,通常都是将汉字级别的编码向量输入神经网络系统,这样做的目的是避免分词给实体识别带来的噪声问题。但是这样往往忽略了词汇级别丰富的语义信息。为了解决此问题,本文将基于正向最大匹配算法(FMM)的词汇编码向量加入神经网络,用来表征更丰富的语义和位置特征。针对中文语言的词边界难点,本文提出了两种基于汉字-词汇不同粒度联合编码的深度学习模型。本文在传统BiLSTM-CRF模型的基础上,根据词汇级向量传入模型的不同方式,提出了平行编码模型和混合编码模型。另外,本文还对比了改进的n-gram特征、结合位置的实体特征(TLCP)、与位置无关的实体特征(TLNP)三种不同特征信息对深度学习模型的影响。实验结果表... 

【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:83 页

【学位级别】:硕士

【部分图文】:

结合主动学习的中文医疗命名实体识别研究


所示,如果登录者为发布者,则需要根据任务类别选择单选题、多图2-4ICA众包发布者发布任务界面

功能图,功能,工作者,发布者


华东师范大学硕士学位论文第二章相关知识介绍22ICA众包平台除具备发布任务之外,还具备发布者注册、工作者注册、工作者领取任务等功能,图2-5将展示几种该众包平台的功能界面。其中,图a是系统首页,具备发布者和工作者的登录、注册等功能;图b是发布者或工作者选择界面,具备用户角色选择的功能;图c是工作者注册界面;图d是工作者个人详情界面,具备查询新工作、已完成历史记录、工作统计板等功能。ICA众包设计简洁,目前虽然可以发布一些简单的众包问题,但是系统在高并发、稳定性等方面设计仍有缺陷,并且相关功能上还存在一定的bug,这些都是后期需要修复的目标。如果遇到标注量比较小的、标注任务比较简单的自然语言或者方面的标注问题,ICA众包可以解决;但是遇到计算机视觉和语音识别领域的图片、语音、视频等标注问题,ICA众包平台目前还不具备此功能。2.5CMNER技术测评指标在BiLSTM-CRF模型中,命名实体识别的任务通常可以看做序列标注任务,对于中文医疗命名实体识别任务,主要采用的技术测评指标通常包括精确率(Precision)、召回率(Recall)和F1值(F1)三种指标的计算方法如公式2-6、公式2-7、公式2-8所示:图2-5ICA众包其他功能展示cdab

模型图,混合编码,模型


华东师范大学硕士学位论文第三章改进的深度学习模型在CMNER中的研究38模型中的收敛结果,为说明模型收敛效果,文中采用F1值作为参考指标。图3-4对比了三种不同的特征层在平行编码模型和混合编码模型上的F1值的预测效果。其中图a代表F1值平行编码模型上的收敛情况,图b代表F1值在混合编码模型上的收敛情况。从图a和图b中可以得出,无论对于平行编码模型或混合编码模型,改进的n-gram特征都取得了比其他两种特征差的结果。并且从收敛速度可以得出,TLCP和TLNP特征收敛的速度相近,说明这两种方法也比改进的n-gram特征快,在平行编码模型中,TLCP特征和TLNP特征在第15次迭代之后趋于平稳;在混合编码模型中,TLCP特征和TLNP特征特征分别需要13次迭代就趋于收敛,但是准确度不如平行编码模型。同最新研究成果的比较在本文1.2.3节中介绍的关于深度学习方法在命名实体识别的研究现状中,不仅对比了在英文领域常用的研究方法,而且总结了中文领域的医疗NER目前的最新研究成果。为了验证两种改进的神经网络模型的实验效果,本节将详细总结CCKS2017数据集上所有最新的研究方法和研究成果,并且将本文中最好模型(结合TLCP特征的平行编码模型)的实验结果与其他最新研究成果做对比。比较结果如表3-8和图3-5所示。图3-4不同特征层信息在两种模型上的表现结果对比

【参考文献】:
硕士论文
[1]面向中文医疗文本的命名实体识别研究[D]. 徐国海.华东师范大学 2019
[2]面向医疗领域的命名实体识别[D]. 栗冬冬.哈尔滨理工大学 2018
[3]面向医疗领域的中文命名实体识别[D]. 薛天竹.哈尔滨工业大学 2017



本文编号:3017862

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3017862.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c9ccd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com