基于深度神经网络的电子病历命名实体识别关键技术研究与应用
发布时间:2021-08-27 00:49
随着“互联网+医疗”的发展,越来越多的研究者将目光投向使用计算机技术对医疗信息提取的研究,尤其是2019年末爆发的新冠肺炎更是把大众的眼光都吸引向了医疗领域。中文电子病历命名实体识别是对电子病历中的医疗信息进行抽取的第一步,具有重大的研究意义和价值。本文在对现有中文电子病历命名实体技术进行研究的基础上,提出了一种多特征融合的字符级词嵌入算法,并在此基础上提出了一种基于自注意力机制的WC-LSTM中文电子病历命名实体识别模型。最后实现了基于上述模型的中文电子病历命名实体识别系统。本文的研究内容有:(1)本文从语言特性和应用领域两方面研究了用于中文电子病历命名实体识别的字符级词嵌入算法的特点和难点,提出了一种基于Skip-gram算法的融合偏旁部首信息和拼音信息的字符级词嵌入算法,并通过外部评估的方式对其可行性和有效性进行了验证。(2)本文提出了一种基于多头自注意力机制的WC-LSTM中文电子病历命名实体识别模型。针对基于字符的命名实体识别模型丢失词信息的问题,本文使用将字符对应的最短词的信息融入字向量的方法,对词信息进行补充,并使用自注意力机制加强距离较远的字符间的联系,降低由于使用最短...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
命名实体识别算法的一般架构
年来基于深度学习的命名实体识别算法,其总体架构如图2-1所示。总体架构可分为三个部分:嵌入层,编码层和解码层。嵌入层将文本映射到高维数字空间,目前主流的方法分为基于字的嵌入,基于词的嵌入,和混合字词信息的嵌入。将文本转化为向量之后进行编码,目前主要使用的编码器为CNNs,RNNs和Transformer架构的各类编码器。最后进行解码,输出标签。2.2中文电子病历文本命名实体识别特点中文电子病历命名实体识别的特点与难点主要表现在中文的语言特点与医学领域的病历的语言特点两个方面。2.2.1中文命名实体识别的特点图2-2不同分词方法所带来的歧义与英语命名实体识别相比,中文命名实体识别更加困难。中文命名实体识别和英语命名实体识别之间的主要区别在于:(1)与英语不同,中文缺乏大写信息,这在识别命名实体方面起着非常重要的作用。(2)如采用基于词的序列命名实体识别算法,由于中文单词之间没有空格,因此算法需要首先应用中文分词来获取单词边界,然后使用类似于英语命名实体模型的单词级序列标记模型来进行识别。但是,中文中的单词边界可能含糊不清,这导致实体边界与单词边界存在不匹配的可能。例如,术语“西藏自治区(西藏自治区)”是命名实体识别中行政区域类型的实体,但也可以分为一个单词或两个单词“西藏(西藏)”和“自治区(自治区)”,这取决于分词工具的粒度。但是,大多数情况下,很难确定正确的分词粒度。同样,如图2-2所示,不同的分段可能导致中文的句子含义不同,甚至可能导致不同的命名实体。显然,如果在分割中错误
第二章相关研究的理论基础与技术9地检测到实体边界,它将对基于词的命名实体识别模型中的实体标记产生负面影响。(3)如采用基于字的命名实体识别算法,由于丢失单词和单词序列信息,因此字符级嵌入本身只能携带有限的信息,主要考虑两个方面:a.汉语存在一字多义,相同字在不同的词语中意义完全不同,如“拍”字在“球拍”和“拍卖”两个词中的含义就差别甚远。b.单个字符含义与成词之后可能差别比较大,如“感”字,在单独成词时含义通常为“感觉”、“感受”,如“患者感头痛”,但存在“感冒”等词,此时,“感”字与单独成词时含义差别较大。2.2.2病历命名实体识别的特点图2-3实际中文电子病历一例在中文电子病历中,存在着许多的医学领域专用的术语,没有相关的背景知识很难对其进行理解,同时为简单明了的进行病历记录,医生在其中使用了大量的缩写、略写。尽管国家出台了许多条例来规范电子病历的书写和记录,但其与通用领域的文本仍然有较大的差异。如图2-3,具体的来说,在中文电子病历命名实体识别领域主要的困难有:(1)中文电子病历中存在着大量的医学领域的专业术语。如“髂嵴”,“子宫
本文编号:3365305
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
命名实体识别算法的一般架构
年来基于深度学习的命名实体识别算法,其总体架构如图2-1所示。总体架构可分为三个部分:嵌入层,编码层和解码层。嵌入层将文本映射到高维数字空间,目前主流的方法分为基于字的嵌入,基于词的嵌入,和混合字词信息的嵌入。将文本转化为向量之后进行编码,目前主要使用的编码器为CNNs,RNNs和Transformer架构的各类编码器。最后进行解码,输出标签。2.2中文电子病历文本命名实体识别特点中文电子病历命名实体识别的特点与难点主要表现在中文的语言特点与医学领域的病历的语言特点两个方面。2.2.1中文命名实体识别的特点图2-2不同分词方法所带来的歧义与英语命名实体识别相比,中文命名实体识别更加困难。中文命名实体识别和英语命名实体识别之间的主要区别在于:(1)与英语不同,中文缺乏大写信息,这在识别命名实体方面起着非常重要的作用。(2)如采用基于词的序列命名实体识别算法,由于中文单词之间没有空格,因此算法需要首先应用中文分词来获取单词边界,然后使用类似于英语命名实体模型的单词级序列标记模型来进行识别。但是,中文中的单词边界可能含糊不清,这导致实体边界与单词边界存在不匹配的可能。例如,术语“西藏自治区(西藏自治区)”是命名实体识别中行政区域类型的实体,但也可以分为一个单词或两个单词“西藏(西藏)”和“自治区(自治区)”,这取决于分词工具的粒度。但是,大多数情况下,很难确定正确的分词粒度。同样,如图2-2所示,不同的分段可能导致中文的句子含义不同,甚至可能导致不同的命名实体。显然,如果在分割中错误
第二章相关研究的理论基础与技术9地检测到实体边界,它将对基于词的命名实体识别模型中的实体标记产生负面影响。(3)如采用基于字的命名实体识别算法,由于丢失单词和单词序列信息,因此字符级嵌入本身只能携带有限的信息,主要考虑两个方面:a.汉语存在一字多义,相同字在不同的词语中意义完全不同,如“拍”字在“球拍”和“拍卖”两个词中的含义就差别甚远。b.单个字符含义与成词之后可能差别比较大,如“感”字,在单独成词时含义通常为“感觉”、“感受”,如“患者感头痛”,但存在“感冒”等词,此时,“感”字与单独成词时含义差别较大。2.2.2病历命名实体识别的特点图2-3实际中文电子病历一例在中文电子病历中,存在着许多的医学领域专用的术语,没有相关的背景知识很难对其进行理解,同时为简单明了的进行病历记录,医生在其中使用了大量的缩写、略写。尽管国家出台了许多条例来规范电子病历的书写和记录,但其与通用领域的文本仍然有较大的差异。如图2-3,具体的来说,在中文电子病历命名实体识别领域主要的困难有:(1)中文电子病历中存在着大量的医学领域的专业术语。如“髂嵴”,“子宫
本文编号:3365305
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3365305.html
最近更新
教材专著