基于CCRF-AL方法的中文电子病历命名实体识别研究
发布时间:2021-10-08 05:54
近些年我国医疗软硬件设施愈发完善,医院信息系统(Hospital Information System,HIS)在各大医疗机构得到了普及,积累了大量的电子病历(Electronic Medical Records,EMR)数据。EMR是临床诊断和治疗的真实数据,具备较高的医学研究价值。信息抽取技术能够从海量的EMR文本中获取研究所需的数据信息,而命名实体识别(Named Entity Recognition,NER)是信息抽取技术的基础及关键。EMR文本中含有大量的隐私信息,目前没有大规模的公开语料可供研究所用,研究语料的缺乏阻碍了我国医疗领域NER研究的发展。中文语言符号的特点,医疗领域EMR文本及实体的特征,也增加了基于中文EMR文本NER的难度。为了能够在小规模训练数据的情况下提升实体识别的效果,本文对中文EMR文本及实体特征进行了分析,由词特征,词性特征,上下文特征,词边界特征和实体标识词特征构成特征集,搭建了基于实体特征的层叠条件随机场(Cascaded Conditional Random Fields,CCRF)模型。为了能够保证模型性能的同时降低训练数据的规模,减少人工...
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1结点集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于实体特征CCRF模型的研究???第三章基于实体特征CCRF模型的研究??本章首先介绍了文章研究的总体流程,如图3-1所示。其次概述了线性链CRF模??型,对中文EMR文本特点,数据标注方法及特征进行了研究。然后以线性链CRF模??型为基础搭建了基于实体特征的CCRF模型。最后通过实验对比分析词特征,词性特??征,上下文特征,词边界特征及实体标识词特征对NER的影响,以及基于实体特征??的CCRF模型实体识别的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?!L?一^!?|数据预处理I?I??i?i?i? ̄n—?:??i?:?|数据标注|?-n??!??!;?方法研究 ̄f标注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨训练数据测试数据丨来标注数据—*■待标注数据丨i??;!?|?i本及实体 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改进的AL数据选择策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?实体说别结果?j??i?y?—.—??*——?—?i??i_
?北京化工大学硕士学位论文???3.?1线性链CRF模型概述??线性链是最简单且常用的CRF模型的结构[44],如图3-2所示。己知观察序列集合??为X=X1,X2,...,Xn,对应的标注序列集合为Y==Y1,Y2,...,Yn。在NER任务中,观察序??列为单词序列,与其相对应的词标签为标注序列。建立条件概率模型P(Y|X)[45],使用??维特比算法求解出使得P(Y|X)最大的序列标记y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???图3-2线性链CRF模型图??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,观察序列中第i个节点的标注变量用Y,表示,第i个节点的前一个??节点和后一个节点所对应的标注变量分别用丫^和丫^表示。Z(X)是规范化因子,确??保P(Y|X)为正确意义的概率。心和^为权值。^是边上的特征函数被称为转移特征函??数,表示相邻标注变量间的相关关系和观测序列对它们的影响仅与当前位置和前一个??位置相关。是节点上的特征函数被称为状态特征函数,表示观测序列对标注变量的??影响,仅与当前位置相关。特征函数^和^均是实值函数其取值为1或〇。线性链CRF??模型为本文后续搭建基于实体特征的CCRF模型提供理论基矗??3.?2中文EMR文本特点研究??EMR中的数据分为自由文本、图像、表格三种常见表现形式[46]。自
本文编号:3423558
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1结点集合A,?B和C??Fig.2-1?Node?sets?A,?B?and?C??
?第三章基于实体特征CCRF模型的研究???第三章基于实体特征CCRF模型的研究??本章首先介绍了文章研究的总体流程,如图3-1所示。其次概述了线性链CRF模??型,对中文EMR文本特点,数据标注方法及特征进行了研究。然后以线性链CRF模??型为基础搭建了基于实体特征的CCRF模型。最后通过实验对比分析词特征,词性特??征,上下文特征,词边界特征及实体标识词特征对NER的影响,以及基于实体特征??的CCRF模型实体识别的效果。??!?!第三章?丨?第五章I??,?r??■---n?1??;;???|??j丨中文EMR文本」:?t??i?!L?一^!?|数据预处理I?I??i?i?i? ̄n—?:??i?:?|数据标注|?-n??!??!;?方法研究 ̄f标注方案?I分?;??|?!?I?1?第四韋丨j??i?|??丨训练数据测试数据丨来标注数据—*■待标注数据丨i??;!?|?i本及实体 ̄?.?—ff? ̄f^?*L ̄-fL;?i??I?I特征研究?:?I?:?u工kil?::??J?I?L?????????????,[??J?I?T?T?1?1??????藝??j?_?負1?|?|?|?|??;':|特征集研宄 ̄ ̄??CCRF梭型?A改进的AL数据选择策略?::??*??m??*?I?i?審??i?!?i?i?i????*????i?I???I?,??1?1?l|?i?I??I?”????J???1?襲??;?实体说别结果?j??i?y?—.—??*——?—?i??i_
?北京化工大学硕士学位论文???3.?1线性链CRF模型概述??线性链是最简单且常用的CRF模型的结构[44],如图3-2所示。己知观察序列集合??为X=X1,X2,...,Xn,对应的标注序列集合为Y==Y1,Y2,...,Yn。在NER任务中,观察序??列为单词序列,与其相对应的词标签为标注序列。建立条件概率模型P(Y|X)[45],使用??维特比算法求解出使得P(Y|X)最大的序列标记y*,如公式3-1所示。??x=x,,x2,...,xb??Yi?Y2?Y,?Y?-,?Y???图3-2线性链CRF模型图??Fig.3-2?The?model?of?linear?chain?CRF??/=?argmaxP(Y|X)?=arg?max^yexp[^^人ktk(yif??=argmax?^ktk(yi.13yi5x.-i)+?^?^?&?(yi5x?i)?(3-1)??公式3-1中,观察序列中第i个节点的标注变量用Y,表示,第i个节点的前一个??节点和后一个节点所对应的标注变量分别用丫^和丫^表示。Z(X)是规范化因子,确??保P(Y|X)为正确意义的概率。心和^为权值。^是边上的特征函数被称为转移特征函??数,表示相邻标注变量间的相关关系和观测序列对它们的影响仅与当前位置和前一个??位置相关。是节点上的特征函数被称为状态特征函数,表示观测序列对标注变量的??影响,仅与当前位置相关。特征函数^和^均是实值函数其取值为1或〇。线性链CRF??模型为本文后续搭建基于实体特征的CCRF模型提供理论基矗??3.?2中文EMR文本特点研究??EMR中的数据分为自由文本、图像、表格三种常见表现形式[46]。自
本文编号:3423558
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3423558.html