在线医疗社区问答文本的知识图谱构建研究
发布时间:2021-04-06 09:53
【目的/意义】针对医疗问答社区数据量大、规范性差、数据稀疏等特性,综合利用双向长短记忆神经网络(BiLSTM)、条件随机场(CRF)、双向门控循环单元(BiGRU)等深度学习模型,对社区文本的实体识别及关系抽取方法进行研究。【方法/过程】首先,对实体作了进一步细分,利用BiLSTM-CRF模型对BIO标注的数据集进行实体识别,实验发现细分实体比未细分实体在结果上表现更好;接着利用BiGRU-Attention模型抽取各实体间的关系,实验结果显示,该模型无论是在准确率、召回率还是F值上都比BiLSTM-Attention抽取模型有较大的提升;最后利用Neo4j图数据库构建了一个可视化的知识图谱。【结果/结论】本研究将非结构化的社区文本转化为结构化数据,在医疗社区的智能知识服务、知识表示、个性化知识推荐等方面具有推动作用。【创新/局限】在医疗实体识别过程中将实体进行细分,成功构建了基于在线医疗社区问答文本的乳腺癌知识图谱。但由于某些关系样本量较少,对整体关系抽取的评价指标存在一定的影响。
【文章来源】:情报科学. 2021,39(03)北大核心CSSCI
【文章页数】:10 页
【部分图文】:
GRU模型内部结构图Figure6InternalstructurediagramofGRUmodel隐藏层各个参数可由以下公式计算得出:
幕埃?切枰?固?瘟频摹?梢远喑缘愦笤娴摹?…表6关系抽取标注示例Table6Anexampleofrelationextractionandannotation实体1乳腺癌乳腺增生乳腺癌…实体2乳头溢液乳癖消酸牛奶…关系DCSMIDRD…实验语句女39岁乳腺癌出现肿块到乳头溢液需要多久。一般3到5年的时间的,每个人一样的女47岁乳腺增生六味地黄丸可以吃吗?可口服乳癖散结胶囊和枸橼酸他莫昔芬片乳癖消治疗。女32岁我乳腺癌患者低级别原位癌做了保乳手术放疗33次可以吃酸牛奶吗?可以吃酸牛奶…图8BiGRU-Attention实体关系抽取结果Figure8BiGRU-Attentionentityrelationshipextractionresults·TheoryResearch·INFORMATIONSCIENCEVol.39,No.3March,2021--56
?飞窬???RNN以及其他深度学习模型的效果,表明了深度学习模型在关系抽取任务中的有效性。Zhou等【11】将注意力机制引入关系抽取模型中,提出BiLSTM-Attention模型,在公开数据集SeValE-2010上进行试验,结果显示该模型取得了较之其他模型较高的F1值。而张兰霞等【12】提出BiGRU-双层Attention的模型,用于抽取中文文本的人物关系,结果与未加入Attention层的数据进行对比发现,该模型在准确率、召回率上都有显著提升,说明Attention层在关系抽取上具有突出表现。图1在线医疗社区问答文本知识图谱构建框架Figure1TheconstructionframeworkoftheonlinemedicalcommunityQ&AtextKnowledgeGraphNeo4j图数据库能够将识别出的实体及关系以知识图谱的方式进行可视化展示,通过查询语句获知具体医疗实体间的不同关系,对个性化医疗,便捷医疗查询具有极大的帮助。结合知识图谱,利用深度学习挖掘医疗社区文本的实体及关系的研究并不多,通过融合相关模型及方法,本文综合利用双向长短记忆神经网络(BiLSTM)、条件随机场(CRF)、双向门控循环单元(BiGRU)等深度学习模型,对社区文本的实体识别及关系抽取方法进行了研究并成功构建了知识图谱。2整体框架和模型设计2..1研究框架在线医疗社区领域,图1展示了一种基于深度学习的知识图谱构建框架,成功将知识图谱与在线医疗社区问答文本相融合。无论是从研究角度还是应用角度,都是一次创新。首先对获取的文本进行清洗和标注处理;然后利用BiLSTM-CRF模型对在线医疗社区问答文本进行实体识别,在此任务中加入细分实体,提高了实体识别的效果,也为接下来的关系抽取提供了更加准确的输入;接着利用BiGRU-A
【参考文献】:
期刊论文
[1]在线医疗问答文本的命名实体识别[J]. 杨文明,褚伟杰. 计算机系统应用. 2019(02)
[2]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[3]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[4]基于电子病历的实体识别和知识图谱构建的研究[J]. 黄梦醒,李梦龙,韩惠蕊. 计算机应用研究. 2019(12)
[5]基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J]. 张兰霞,胡文心. 计算机应用与软件. 2018(11)
[6]在线医疗文本中的实体识别研究[J]. 苏娅,刘杰,黄亚楼. 北京大学学报(自然科学版). 2016(01)
[7]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[8]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
本文编号:3121234
【文章来源】:情报科学. 2021,39(03)北大核心CSSCI
【文章页数】:10 页
【部分图文】:
GRU模型内部结构图Figure6InternalstructurediagramofGRUmodel隐藏层各个参数可由以下公式计算得出:
幕埃?切枰?固?瘟频摹?梢远喑缘愦笤娴摹?…表6关系抽取标注示例Table6Anexampleofrelationextractionandannotation实体1乳腺癌乳腺增生乳腺癌…实体2乳头溢液乳癖消酸牛奶…关系DCSMIDRD…实验语句女39岁乳腺癌出现肿块到乳头溢液需要多久。一般3到5年的时间的,每个人一样的女47岁乳腺增生六味地黄丸可以吃吗?可口服乳癖散结胶囊和枸橼酸他莫昔芬片乳癖消治疗。女32岁我乳腺癌患者低级别原位癌做了保乳手术放疗33次可以吃酸牛奶吗?可以吃酸牛奶…图8BiGRU-Attention实体关系抽取结果Figure8BiGRU-Attentionentityrelationshipextractionresults·TheoryResearch·INFORMATIONSCIENCEVol.39,No.3March,2021--56
?飞窬???RNN以及其他深度学习模型的效果,表明了深度学习模型在关系抽取任务中的有效性。Zhou等【11】将注意力机制引入关系抽取模型中,提出BiLSTM-Attention模型,在公开数据集SeValE-2010上进行试验,结果显示该模型取得了较之其他模型较高的F1值。而张兰霞等【12】提出BiGRU-双层Attention的模型,用于抽取中文文本的人物关系,结果与未加入Attention层的数据进行对比发现,该模型在准确率、召回率上都有显著提升,说明Attention层在关系抽取上具有突出表现。图1在线医疗社区问答文本知识图谱构建框架Figure1TheconstructionframeworkoftheonlinemedicalcommunityQ&AtextKnowledgeGraphNeo4j图数据库能够将识别出的实体及关系以知识图谱的方式进行可视化展示,通过查询语句获知具体医疗实体间的不同关系,对个性化医疗,便捷医疗查询具有极大的帮助。结合知识图谱,利用深度学习挖掘医疗社区文本的实体及关系的研究并不多,通过融合相关模型及方法,本文综合利用双向长短记忆神经网络(BiLSTM)、条件随机场(CRF)、双向门控循环单元(BiGRU)等深度学习模型,对社区文本的实体识别及关系抽取方法进行了研究并成功构建了知识图谱。2整体框架和模型设计2..1研究框架在线医疗社区领域,图1展示了一种基于深度学习的知识图谱构建框架,成功将知识图谱与在线医疗社区问答文本相融合。无论是从研究角度还是应用角度,都是一次创新。首先对获取的文本进行清洗和标注处理;然后利用BiLSTM-CRF模型对在线医疗社区问答文本进行实体识别,在此任务中加入细分实体,提高了实体识别的效果,也为接下来的关系抽取提供了更加准确的输入;接着利用BiGRU-A
【参考文献】:
期刊论文
[1]在线医疗问答文本的命名实体识别[J]. 杨文明,褚伟杰. 计算机系统应用. 2019(02)
[2]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[3]基于深度学习的文本表示方法[J]. 李枫林,柯佳. 情报科学. 2019(01)
[4]基于电子病历的实体识别和知识图谱构建的研究[J]. 黄梦醒,李梦龙,韩惠蕊. 计算机应用研究. 2019(12)
[5]基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J]. 张兰霞,胡文心. 计算机应用与软件. 2018(11)
[6]在线医疗文本中的实体识别研究[J]. 苏娅,刘杰,黄亚楼. 北京大学学报(自然科学版). 2016(01)
[7]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[8]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
本文编号:3121234
本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/3121234.html