基于BiLSTM的中文电子病历知识图谱构建及实现

发布时间:2022-01-05 23:16
  随着医疗领域相关技术的迅猛发展,人们对于医疗健康问题的关注日益增加。一方面,互联网上在线医疗健康网站越来越多,人们的就医问诊方式也越来越多。随着电子化医疗健康数据的暴增,医务人员用来记录患者信息和疾病诊断结果的方式已经从传统的纸质版病历转变为现在的电子版病历,科研人员正在寻求合适的方法来使用这些电子版的医疗健康数据。另一方面,电子病历属于非结构化数据,而且没有统一的标注语料和标注规范,结合其独特的文本特点和结构特点去构建医疗语料已经成为了医疗领域科研的难点。所以对于传统领域的实体识别和关系抽取的模型方法很难应用在电子病历中,这对医疗领域的自然语言处理任务带来了巨大的挑战。为了克服这些困难,知识图谱的构建及实现为医疗知识的存储和管理提供了一种合适的解决方案。本论文设计了一种基于深度学习的知识图谱的构建及实现,对医疗电子病历的文本进行命名实体识别和关系抽取,再使用图数据库存储医疗知识并构建知识图谱。论文的主要内容如下:(1)在医疗命名实体识别的方法中,本论文设计了BiLSTM-CRF模型用于提取特征,利用小样本标注数据集来训练实体识别模型,提取电子病历的语言特征和结构特征,再不断地扩增标注... 

【文章来源】:浙江工业大学浙江省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于BiLSTM的中文电子病历知识图谱构建及实现


知识图谱的发展[21]

架构图,知识图,架构,技术


基于BiLSTM的中文电子病历知识图谱构建及实现9数据出发,进行知识的提取,或者通过第三方库对结构化数据进行整合,提取实体之间的关系,最后存入知识图谱的数据层和模式层。图2-1知识图谱构建技术架构Figure2-1.Technicalarchitectureofknowledgegraph知识图谱有以下几种构建方式:(1)自底向上的构建方式:这种是最常使用的知识图谱的构建方式,Google的KnowledgeVault[27]和微软的Satori知识库就是典型的案例。从原始数据中提取出实体和实体之间的关系,选择满足条件的知识加入到知识库中,再作进一步的构建。(2)自顶向下的构建方式:先构建好顶层的本体和数据模式,再把原始数据中提取的实体与顶层的关系本体进行匹配,匹配成功后加入到模式中。无论采用哪种构建方式,知识图谱的构建流程都是统一的,可以分为知识提娶知识表示、知识存储、知识可视化这几个方面。如图2-2所示:图2-2知识图谱的构建流程Figure2-2.Constructionprocessofknowledgegraph本文的知识图谱的构建,如图2-3所示,重点分为三部分:第一部分为命名实体识别,数据来源为非结构化的中文电子病历数据,对数据进行预处理之后,使用实体识别模型进行医疗命名实体识别;第二部分为关系抽取,第一部分识别出的医疗实体作为关系抽取的数据集,使用关系抽取模型识别出医疗实体之间的关系;第三部分为知识图谱的绘制,把前两部分识别出的医疗实体和实体关系导入图数据库Neo4j中进行可视化分析,绘制医疗知识图谱。

流程图,知识图,流程,向量


浙江工业大学硕士学位论文10图2-3知识图谱的绘制流程Figure2-3.Drawprocessofknowledgegraph2.3模型相关理论2.3.1词嵌入模型词嵌入(WordEmbedding)[28,29]技术是一种采用机器学习方法将高维空间中的词映射到低维的向量空间中的技术,使用一个实数向量来表示一个单词,从而方便计算机进行处理,而且可以缩小同义词或相似词之间的欧氏距离。同时,词嵌入技术可以解决词向量维度过高和词向量稀疏的问题,降低了模型的训练难度。本论文的BiLSTM-CRF模型的输入为采用Word2vec[30-31]模型生成的词向量。Word2vec可以将单词从高维空间映射成低维的实数向量,是Google在2013年提出的开源工具。Mikolov等人[32]提出了一种在文本中查找短语的简单方法,优化了Word2vec的网络结构,并表明可以为数百万个短语学习良好的矢量表示。Word2vec模型的核心思想是利用深度学习的模型训练出词向量,可以很方便的训练大量的语料,提高训练的效率。Word2vec模型的结构图如图2-4,输入是独热向量,隐藏层没有激活函数,也就是线性的单元。输出层维度跟输入层的维度一样,使用了Softmax回归。当模型训练好后,我们并不是用训练好的模型处理新的任务,而是使用模型通过训练学习得到的参数,如模型通过训练学习得到的权重矩阵。把输入的词向量与权重矩阵相乘,就得到了所需要的低维空间的词向量形式。

【参考文献】:
期刊论文
[1]融合Gate过滤机制与深度Bi-LSTM-CRF的汉语语义角色标注[J]. 张苗苗,刘明童,张玉洁,徐金安,陈钰枫.  情报工程. 2018(02)
[2]一种基于Viterbi法的改进瞬时转速估计算法[J]. 刘永强,郝高岩,廖英英,杨绍普.  振动.测试与诊断. 2017(05)
[3]Skip-Gram模型融合词向量投影的微博新词发现[J]. 于洁.  计算机系统应用. 2016(07)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[5]基于word2vec的互联网商品评论情感倾向研究[J]. 黄仁,张卫.  计算机科学. 2016(S1)
[6]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[7]采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 姜霖,王东波.  现代图书情报技术. 2016(02)
[8]融合知识图谱的查询扩展模型及其稳定性研究[J]. 郝林雪,张鹏,宋大为,候越先.  计算机科学与探索. 2017(01)
[9]基于规则推理引擎的实体关系抽取研究[J]. 薛丽娟,席梦隆,王梦婕,王昊奋,阮彤.  计算机科学与探索. 2016(09)
[10]中医药知识图谱构建[J]. 贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红.  医学信息学杂志. 2015(08)

硕士论文
[1]基于Word2Vec,LSTMs和Attention机制的中文情感分析研究[D]. 胡月永.兰州大学 2018



本文编号:3571227

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3571227.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5f8f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com