基于BERT嵌入和残差连接的中文电子病历命名实体识别研究
发布时间:2021-03-01 10:22
随着IT技术和医疗信息化的不断发展,电子病历(Electronic Medical Records,EMR)逐渐取代了纸质病历而被应用于众多医院,成为医院信息系统的核心。在医院的现代化管理当中,电子病历不仅起到了高效便利的作用,而且也是科研以及医疗的第一手资料。但是由于电子病历医疗数据规模庞大以及复杂,导致医疗文本内的有效信息并没有得到充分的挖掘。于是,作为自然语言处理技术之一的命名实体识别(Named Entity Recognition,NER)被引入其中。命名实体识别已被广泛的应用于信息抽取、智能问答、句法分析、机器翻译等领域。它成为了各领域人员关注的重点。虽然命名实体识别已经发展了很长一段时间,但是其识别的效果在部分领域仍然没有满足需求。其表现为,传统的命名实体识别方法太依赖于人工特征,需要较高人力和时间成本。有鉴于此,本文引入时下流行的深度学习序列标注模型——BiLSTM-CRF模型来作为基准模型,并基于此模型来进行改进,以便更好的应用在中文电子病历命名实体识别当中。本文研究内容主要围绕以下三个方面:(1)针对国内对于公开的中文电子病历数据严重缺乏和高质量中文电子病历标注数据...
【文章来源】:浙江工商大学浙江省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
线性链条件随机场
基于对抗的深度迁移学习
基于BERT嵌入和残差连接的中文电子病历命名实体识别研究16图2.3基于预训练的深度迁移学习词向量不仅表达词自己的意思特征,还会表达相关词之间的联系,即每个词不再是独立的个体而是相互之间含有联系。而借助预训练技术用大量数据进行语言模型预训练,能够很好的去提取大量数据当中的语义特征,这样的话在下游任务当中能够起到很好的提升作用。在对于某些特殊领域的数据集相对较少且标注成本过高的情况下,通过预训练得到的语义表征将会对我们指定领域任务的特征起到补充的作用,进而使任务的性能得到提升。相关研究证明,通过对语言模型进行预训练然后作用在下游任务模型不仅能够在少量标注数据集上使得性能得到一定的提升,并且可以加快模型的收敛速度。2.4评价标准不同模型对命名实体识别的效果来进行比较需要一个评价标准,因此在MUC-6的会议当中提出准确率P(Precision)、召回率R(Recall)以及F1值(F1-Score)来进行估计。(1)准确率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正确识别出的命名实体个数;FP(falsepositive)表示被错误的识别成命名实体的个数。因此,准确率即定义为正确识别出的命名实体个数与识别为命名实体总数的比例。
【参考文献】:
期刊论文
[1]全国知识图谱与语义计算大会(CCKS 2017)在四川成都隆重召开[J]. 中文信息学报. 2017(05)
[2]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[3]计算机在医院信息系统中的应用[J]. 王歌. 电子技术与软件工程. 2016(01)
[4]我国电子病历定义定位研究[J]. 朱妍昕,徐维. 医学信息学杂志. 2015(06)
[5]基于CRF和规则相结合的地理命名实体识别方法[J]. 何炎祥,罗楚威,胡彬尧. 计算机应用与软件. 2015(01)
[6]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[7]结构化电子病历的应用及问题[J]. 冯志香. 中国病案. 2009(11)
硕士论文
[1]基于半监督学习的中文电子病历实体识别和实体关系抽取研究[D]. 牧杨子.海南大学 2018
[2]医疗卫生信息化建设中的政府功能及其实现策略研究[D]. 黄威.深圳大学 2017
[3]中文电子病历命名实体识别研究[D]. 曲春燕.哈尔滨工业大学 2015
本文编号:3057345
【文章来源】:浙江工商大学浙江省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
线性链条件随机场
基于对抗的深度迁移学习
基于BERT嵌入和残差连接的中文电子病历命名实体识别研究16图2.3基于预训练的深度迁移学习词向量不仅表达词自己的意思特征,还会表达相关词之间的联系,即每个词不再是独立的个体而是相互之间含有联系。而借助预训练技术用大量数据进行语言模型预训练,能够很好的去提取大量数据当中的语义特征,这样的话在下游任务当中能够起到很好的提升作用。在对于某些特殊领域的数据集相对较少且标注成本过高的情况下,通过预训练得到的语义表征将会对我们指定领域任务的特征起到补充的作用,进而使任务的性能得到提升。相关研究证明,通过对语言模型进行预训练然后作用在下游任务模型不仅能够在少量标注数据集上使得性能得到一定的提升,并且可以加快模型的收敛速度。2.4评价标准不同模型对命名实体识别的效果来进行比较需要一个评价标准,因此在MUC-6的会议当中提出准确率P(Precision)、召回率R(Recall)以及F1值(F1-Score)来进行估计。(1)准确率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正确识别出的命名实体个数;FP(falsepositive)表示被错误的识别成命名实体的个数。因此,准确率即定义为正确识别出的命名实体个数与识别为命名实体总数的比例。
【参考文献】:
期刊论文
[1]全国知识图谱与语义计算大会(CCKS 2017)在四川成都隆重召开[J]. 中文信息学报. 2017(05)
[2]深层网络中的梯度消失现象[J]. 周祥全,张津. 科技展望. 2017(27)
[3]计算机在医院信息系统中的应用[J]. 王歌. 电子技术与软件工程. 2016(01)
[4]我国电子病历定义定位研究[J]. 朱妍昕,徐维. 医学信息学杂志. 2015(06)
[5]基于CRF和规则相结合的地理命名实体识别方法[J]. 何炎祥,罗楚威,胡彬尧. 计算机应用与软件. 2015(01)
[6]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[7]结构化电子病历的应用及问题[J]. 冯志香. 中国病案. 2009(11)
硕士论文
[1]基于半监督学习的中文电子病历实体识别和实体关系抽取研究[D]. 牧杨子.海南大学 2018
[2]医疗卫生信息化建设中的政府功能及其实现策略研究[D]. 黄威.深圳大学 2017
[3]中文电子病历命名实体识别研究[D]. 曲春燕.哈尔滨工业大学 2015
本文编号:3057345
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3057345.html