基于深度学习的中文电子病历实体及其修饰识别技术研究

发布时间：2020-06-28 17:16

【摘要】：智慧医疗是当前人工智能领域的研究热点,而在各种医疗数据中,电子病历具有重要价值。电子病历是医务人员通过电子病历系统在医疗活动过程中产生的一种临床文本信息,是一种记录患者信息的数字化信息。通过对电子病历的分析与挖掘,可以得到大量的与患者密切相关的医疗信息,这对临床决策能起到很大的帮助。自然语言处理技术可以帮助我们实现对电子病历文本信息的挖掘,如命名实体识别、实体修饰识别等技术。其中实体识别旨在识别出病历中不同实体的实体边界与类别,实体修饰旨在识别出特定实体与患者之间的修饰关系。但是与其他文本相比,中文电子病历存在大量包括书写不规范、专业术语较多、特殊字符频繁、句子结构不完整等问题。同时,由于涉及到患者的隐私,导致目前开源的电子病历数据不多。这些问题加大了对电子病历的信息进行挖掘和识别的难度。因此为了更好地对电子病历信息进行抽取,本文利用深度学习方法在自主标注的数据集上对中文电子病历的医疗实体与修饰识别及其联合识别技术进行了研究:(1)基于知识注意力机制增强的实体识别。虽然以往的相关工作都取得了较好的成果,但是却忽略了能够提供丰富实体信息的外部医疗知识,因此本文提出了基于医疗知识注意力增强的CNN-BLSTM-CRF方法。通过使用注意力机制,对医疗词典中的医疗实体的定义与边界信息进行编码,来增强神经网络模型的性能。其中,在BLSTM对文本信息编码前,先用CNN预先提取了文本的字级别表示并作为文本信息的补充信息,有效地解决了上文中提出的电子病历存在的书写不规范和特殊词频繁等问题。(2)基于CNN-GRU神经网络的实体修饰识别。使用了 GRU网络对电子病历文本信息进行了编码,并使用Softmax进行解码。其中,GRU网络是循环神经网络(RNN)一个变体,与之相比GRU更好地解决了远距离依赖的问题且计算方式更简单。同时使用了 CNN网络预先提取了字符级表示以解决书写不规范和特殊字符频繁等问题。(3)实体及其修饰联合识别。在联合识别任务中本文提出了一种基于多标签方案的联合识别方法,并使用BLSTM-LSTM模型进行识别。与传统的串联式识别方法相比,基于多标签方案的方法,可以成功的将两个步骤转换为一个步骤:通过多标签方案,使用端到端模型一步识别。实验结果表明,在相同的数据集上,本文的方法相较于其他方法取得了较好的性能。
【学位授予单位】：西北师范大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：R-05;TP391.1;TP18
【图文】：

图２－３实体与修饰标注工具逡逑

基于深度学习的中文电子病历实体及其修饰识别技术研究

图３－１深度学习模型结构逡逑在本文中，模型首先将输入文本分别转换为每个字对应的预训练字符的嵌入逡逑向量矩阵和随机生成的字符向量矩阵，其中预训练的字符嵌入向量通过查询预先逡逑＇

【参考文献】