基于多任务的中文电子病历中命名实体识别研究
发布时间:2021-06-30 18:19
针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2 000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求.
【文章来源】:东北师大学报(自然科学版). 2020,52(01)北大核心
【文章页数】:7 页
【部分图文】:
多任务医学实体识别架构图
LSTM网络是传统RNN神经网络的一种变体.区别于传统的RNN网络,LSTM引入了记忆门单元和门限限制[18],能够有效克服传统RNN网络存在的梯度消失和梯度爆炸的问题,在解决长序列标注问题上表现出比传统RNN更好的效果.本文中分词任务与命名实体识别任务均采用三层的LSTM网络.假设将电子病历中的句子记作X=(x1,x2,…,xn),xi是句子第i个字的地址.模型的第一层为输入层,可以通过预训练的Embedding矩阵将X映射到低位稠密的字向量(Character Embedding)xi=Rd,d为embedding的维度;第二层为隐藏层,将一个句子的各个字的Char Embedding序列作为LSTM各个时间步的输入,得到隐藏层状态序列(h1,h2,…,hn).在电子病历中,医学命名实体的上下文信息对医学实体的识别均是有用的信息.因此,本文使用双向LSTM,将正向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列(h,h,…,hn)∈Rn×m,hi表示位置i处的前向和后向LSTM的隐藏状态,?表示连接操作.LSTM循环单元如图4所示[19].
本文中分词任务与命名实体识别任务均采用三层的LSTM网络.假设将电子病历中的句子记作X=(x1,x2,…,xn),xi是句子第i个字的地址.模型的第一层为输入层,可以通过预训练的Embedding矩阵将X映射到低位稠密的字向量(Character Embedding)xi=Rd,d为embedding的维度;第二层为隐藏层,将一个句子的各个字的Char Embedding序列作为LSTM各个时间步的输入,得到隐藏层状态序列(h1,h2,…,hn).在电子病历中,医学命名实体的上下文信息对医学实体的识别均是有用的信息.因此,本文使用双向LSTM,将正向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列(h,h,…,hn)∈Rn×m,hi表示位置i处的前向和后向LSTM的隐藏状态,?表示连接操作.LSTM循环单元如图4所示[19].其中:ft,it和ot是3个门,ct-1为上一时刻的记忆单元;珓ct是通过非线性函数得到的候选状态;σ(·)为logistic函数,其输出区间为(0,1);Xt为当前时刻的输入;ht-1为上一时刻的外部状态.LSTM网络的循环单元的计算过程:首先,通过当前时刻的输入Xt与上一时刻的外部状态ht-1计算出ft,it和ot的值,以及候选状态珓ct;然后,通过ft和it更新记忆单元;最后,通过ot将内部状态的信息传递给外部状态ht.
【参考文献】:
期刊论文
[1]一种基于双向LSTM的联合学习的中文分词方法[J]. 章登义,胡思,徐爱萍. 计算机应用研究. 2019(10)
[2]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[3]基于两位一体的中文电子病历命名实体识别[J]. 郁小玲,张铁山,吴彤,方明哲,黄建一,胡长军. 中国卫生信息管理杂志. 2017(04)
[4]基于多标签CRF的疾病名称抽取[J]. 王鹏远,姬东鸿. 计算机应用研究. 2017(01)
[5]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[6]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[7]基于“强”规则匹配技术的临床数据处理方法探讨[J]. 张铁山,闻思源,温博晨. 中国卫生信息管理杂志. 2015(04)
[8]CRF与规则相结合的医学病历实体识别[J]. 栗伟,赵大哲,李博,彭新茗,刘积仁. 计算机应用研究. 2015(04)
[9]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
本文编号:3258244
【文章来源】:东北师大学报(自然科学版). 2020,52(01)北大核心
【文章页数】:7 页
【部分图文】:
多任务医学实体识别架构图
LSTM网络是传统RNN神经网络的一种变体.区别于传统的RNN网络,LSTM引入了记忆门单元和门限限制[18],能够有效克服传统RNN网络存在的梯度消失和梯度爆炸的问题,在解决长序列标注问题上表现出比传统RNN更好的效果.本文中分词任务与命名实体识别任务均采用三层的LSTM网络.假设将电子病历中的句子记作X=(x1,x2,…,xn),xi是句子第i个字的地址.模型的第一层为输入层,可以通过预训练的Embedding矩阵将X映射到低位稠密的字向量(Character Embedding)xi=Rd,d为embedding的维度;第二层为隐藏层,将一个句子的各个字的Char Embedding序列作为LSTM各个时间步的输入,得到隐藏层状态序列(h1,h2,…,hn).在电子病历中,医学命名实体的上下文信息对医学实体的识别均是有用的信息.因此,本文使用双向LSTM,将正向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列(h,h,…,hn)∈Rn×m,hi表示位置i处的前向和后向LSTM的隐藏状态,?表示连接操作.LSTM循环单元如图4所示[19].
本文中分词任务与命名实体识别任务均采用三层的LSTM网络.假设将电子病历中的句子记作X=(x1,x2,…,xn),xi是句子第i个字的地址.模型的第一层为输入层,可以通过预训练的Embedding矩阵将X映射到低位稠密的字向量(Character Embedding)xi=Rd,d为embedding的维度;第二层为隐藏层,将一个句子的各个字的Char Embedding序列作为LSTM各个时间步的输入,得到隐藏层状态序列(h1,h2,…,hn).在电子病历中,医学命名实体的上下文信息对医学实体的识别均是有用的信息.因此,本文使用双向LSTM,将正向LSTM输出的隐状态序列在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列(h,h,…,hn)∈Rn×m,hi表示位置i处的前向和后向LSTM的隐藏状态,?表示连接操作.LSTM循环单元如图4所示[19].其中:ft,it和ot是3个门,ct-1为上一时刻的记忆单元;珓ct是通过非线性函数得到的候选状态;σ(·)为logistic函数,其输出区间为(0,1);Xt为当前时刻的输入;ht-1为上一时刻的外部状态.LSTM网络的循环单元的计算过程:首先,通过当前时刻的输入Xt与上一时刻的外部状态ht-1计算出ft,it和ot的值,以及候选状态珓ct;然后,通过ft和it更新记忆单元;最后,通过ot将内部状态的信息传递给外部状态ht.
【参考文献】:
期刊论文
[1]一种基于双向LSTM的联合学习的中文分词方法[J]. 章登义,胡思,徐爱萍. 计算机应用研究. 2019(10)
[2]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[3]基于两位一体的中文电子病历命名实体识别[J]. 郁小玲,张铁山,吴彤,方明哲,黄建一,胡长军. 中国卫生信息管理杂志. 2017(04)
[4]基于多标签CRF的疾病名称抽取[J]. 王鹏远,姬东鸿. 计算机应用研究. 2017(01)
[5]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[6]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[7]基于“强”规则匹配技术的临床数据处理方法探讨[J]. 张铁山,闻思源,温博晨. 中国卫生信息管理杂志. 2015(04)
[8]CRF与规则相结合的医学病历实体识别[J]. 栗伟,赵大哲,李博,彭新茗,刘积仁. 计算机应用研究. 2015(04)
[9]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
本文编号:3258244
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3258244.html