基于中文自然语言处理的糖尿病知识图谱构建
发布时间:2021-12-19 13:32
随着人民生活水平的提高以及生活方式的改变,糖尿病的发病率在逐年增加,糖尿病会导致持续高血糖与长期代谢紊乱等问题,从而致使全身组织器官,特别是眼、肾、心血管及神经系统的损害及其功能障碍和衰竭。然而我国基层医生人数不足,专业水平参差不齐,同时糖尿病也分为很多种类,只有正确的认识糖尿病的种类才能够帮助人民群众有效的、有针对性的预防和治疗糖尿病。近年来自然语言处理技术快速发展,可运用此技术从医学文本中抽取医学实体和实体间的关系等知识,使用抽取到的知识可构建医学知识图谱,成功地将无结构化数据转换成结构化数据。医学知识图谱可以辅助医务人员对疾病诊断治疗,同时可更好的向人民普及医学知识,加快推动医学产业发展。当前运用自然语言处理技术构建知识图谱是一个学术研究的热点,同时它也广泛的应用于工业界的各方面。本文运用中文自然语言处理技术从糖尿病医学文献中抽取知识,构建糖尿病知识图谱。这些医学文献中蕴含大量医学信息,对糖尿病的预防、诊断和治疗都有着十分重要的意义。由于这些医学文献无结构化,若利用人工抽取相关知识将会耗费大量的人力物力,如何高效准确地抽取文献中的知识,是本文研究的重点。本文通过对医学知识图谱构建...
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
谷歌搜索结果页面
内蒙古科技大学硕士学位论文-3-网本体语言)就是基于上述目的产生的[5]。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构,即三元组的结构,表示为G=(E,R,S)。其中E|E|21}e,...,e,e{是知识库中的实体集合,共包含|E|种不同实体;R|E|21}r,...,r,{r是知识库中的关系集合,共包含||R种不同关系;S属于ERE代表知识库中的三元组集合。知识图谱在逻辑结构上分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、JanusGraph等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小[5]。知识图谱的体系架构是指其构建模式的结构,如下图1.2所示:图1.2知识图谱体系架构图知识图谱的构建,首先是对原始数据的收集,数据可为结构化数据、半结构化数据或非结构化数据,通过对半结构化数据和非结构化数据进行一系列的知识抽取技术,并通过数据融合技术融合第三方数据库和结构化数据,再将所有知识进行实体对齐或知识推理技术,即可构建本体库,最后对本体库进行一系列的更新迭代过程,即可构建最终的知识图谱。1.2.2知识图谱研究现状近年来,科学家们对知识图谱的应用场景不断进行了扩展。知识图谱相关技术也被应用于除搜索引擎以外其他领域的研究[5]。在国内方面,2014年,胡芳槐[6]研
内蒙古科技大学硕士学位论文-6-图1.3糖尿病知识图谱框架图本文首先对获取的糖尿病文献数据进行预处理工作,数据集来自教科书、临床指南和研究论文三个方面,因文章篇幅较长,需要对数据集进行分句等预处理,将数据标注好后,分为训练集、验证集和测试集,用于下一步的命名实体识别和关系抽取两项子任务中。在命名实体识别子任务中,本文以BiLSTM-CRF为基础模型,为解决传统词嵌入中存在的一词多义,无法结合文本上下文等问题,引入了基于字的BERT预训练语言模型,构建了BERT-BiLSTM-CRF模型,通过学习句子的上下文信息,从而提高模型识别的准确率;在关系抽取子任务中,通过阅读大量文献,对比了当前两种主流模型,即流水线模型与联合模型的优缺点后,本文选择了共享参数的联合模型进行实体关系的抽取,同时为提高实验结果的准确率和降低训练时间成本,采用了BERT预训练语言模型和多头选择方式,构建了融合了BERT-BiLSTM的关系抽取联合模型,并通过实验表明本模型抽取具有良好效果。1.4论文组织结构第一章绪论详细介绍了本文糖尿病知识图谱构建的研究背景及其意义,并对知识图谱的国内外研究现状做了简要介绍,详细介绍了医疗知识图谱研究现状,并阐述了本文的主要内容及章节安排。第二章知识图谱构建相关技术
【参考文献】:
期刊论文
[1]基于知识图谱的国内空中交通管理研究可视化分析[J]. 王剑辉,朱晓波,夏正洪,何乃帅. 交通信息与安全. 2019(06)
[2]基于BERT嵌入的中文命名实体识别方法[J]. 杨飘,董文永. 计算机工程. 2020(04)
[3]基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J]. 曹春萍,关鹏举. 计算机应用研究. 2019(12)
[4]基于EHR的医疗知识图谱研究与应用综述[J]. 何霆,吴雅婷,王华珍,熊英杰,孙偲,徐汉川. 哈尔滨工业大学学报. 2018(11)
[5]知识图谱在知识库网站建设中的应用[J]. 董翔,蒋伟,史志林. 电子技术与软件工程. 2018(16)
[6]“人工智能+医疗”火了,未来如何治病?[J]. 方曲韵. 晚霞. 2018(14)
[7]知识图谱的推荐系统综述[J]. 常亮,张伟涛,古天龙,孙文平,宾辰忠. 智能系统学报. 2019(02)
[8]一种准确而高效的领域知识图谱构建方法[J]. 杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉. 软件学报. 2018(10)
[9]CRF与词典相结合的疾病命名实体识别[J]. 龙光宇,徐云. 微型机与应用. 2017(21)
[10]医学知识图谱构建技术与研究进展[J]. 袁凯琦,邓扬,陈道源,张冰,雷凯. 计算机应用研究. 2018(07)
博士论文
[1]医学领域知识抽取方法研究[D]. 李昊迪.哈尔滨工业大学 2018
[2]基于多种数据源的中文知识图谱构建方法研究[D]. 胡芳槐.华东理工大学 2015
硕士论文
[1]基于CNKI的中文医学知识图谱构建与应用[D]. 任玉琪.大连理工大学 2019
[2]基于知识图谱的医疗知识搜索研究[D]. 刘崇.浙江理工大学 2018
本文编号:3544504
【文章来源】:内蒙古科技大学内蒙古自治区
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
谷歌搜索结果页面
内蒙古科技大学硕士学位论文-3-网本体语言)就是基于上述目的产生的[5]。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构,即三元组的结构,表示为G=(E,R,S)。其中E|E|21}e,...,e,e{是知识库中的实体集合,共包含|E|种不同实体;R|E|21}r,...,r,{r是知识库中的关系集合,共包含||R种不同关系;S属于ERE代表知识库中的三元组集合。知识图谱在逻辑结构上分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、JanusGraph等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小[5]。知识图谱的体系架构是指其构建模式的结构,如下图1.2所示:图1.2知识图谱体系架构图知识图谱的构建,首先是对原始数据的收集,数据可为结构化数据、半结构化数据或非结构化数据,通过对半结构化数据和非结构化数据进行一系列的知识抽取技术,并通过数据融合技术融合第三方数据库和结构化数据,再将所有知识进行实体对齐或知识推理技术,即可构建本体库,最后对本体库进行一系列的更新迭代过程,即可构建最终的知识图谱。1.2.2知识图谱研究现状近年来,科学家们对知识图谱的应用场景不断进行了扩展。知识图谱相关技术也被应用于除搜索引擎以外其他领域的研究[5]。在国内方面,2014年,胡芳槐[6]研
内蒙古科技大学硕士学位论文-6-图1.3糖尿病知识图谱框架图本文首先对获取的糖尿病文献数据进行预处理工作,数据集来自教科书、临床指南和研究论文三个方面,因文章篇幅较长,需要对数据集进行分句等预处理,将数据标注好后,分为训练集、验证集和测试集,用于下一步的命名实体识别和关系抽取两项子任务中。在命名实体识别子任务中,本文以BiLSTM-CRF为基础模型,为解决传统词嵌入中存在的一词多义,无法结合文本上下文等问题,引入了基于字的BERT预训练语言模型,构建了BERT-BiLSTM-CRF模型,通过学习句子的上下文信息,从而提高模型识别的准确率;在关系抽取子任务中,通过阅读大量文献,对比了当前两种主流模型,即流水线模型与联合模型的优缺点后,本文选择了共享参数的联合模型进行实体关系的抽取,同时为提高实验结果的准确率和降低训练时间成本,采用了BERT预训练语言模型和多头选择方式,构建了融合了BERT-BiLSTM的关系抽取联合模型,并通过实验表明本模型抽取具有良好效果。1.4论文组织结构第一章绪论详细介绍了本文糖尿病知识图谱构建的研究背景及其意义,并对知识图谱的国内外研究现状做了简要介绍,详细介绍了医疗知识图谱研究现状,并阐述了本文的主要内容及章节安排。第二章知识图谱构建相关技术
【参考文献】:
期刊论文
[1]基于知识图谱的国内空中交通管理研究可视化分析[J]. 王剑辉,朱晓波,夏正洪,何乃帅. 交通信息与安全. 2019(06)
[2]基于BERT嵌入的中文命名实体识别方法[J]. 杨飘,董文永. 计算机工程. 2020(04)
[3]基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J]. 曹春萍,关鹏举. 计算机应用研究. 2019(12)
[4]基于EHR的医疗知识图谱研究与应用综述[J]. 何霆,吴雅婷,王华珍,熊英杰,孙偲,徐汉川. 哈尔滨工业大学学报. 2018(11)
[5]知识图谱在知识库网站建设中的应用[J]. 董翔,蒋伟,史志林. 电子技术与软件工程. 2018(16)
[6]“人工智能+医疗”火了,未来如何治病?[J]. 方曲韵. 晚霞. 2018(14)
[7]知识图谱的推荐系统综述[J]. 常亮,张伟涛,古天龙,孙文平,宾辰忠. 智能系统学报. 2019(02)
[8]一种准确而高效的领域知识图谱构建方法[J]. 杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉. 软件学报. 2018(10)
[9]CRF与词典相结合的疾病命名实体识别[J]. 龙光宇,徐云. 微型机与应用. 2017(21)
[10]医学知识图谱构建技术与研究进展[J]. 袁凯琦,邓扬,陈道源,张冰,雷凯. 计算机应用研究. 2018(07)
博士论文
[1]医学领域知识抽取方法研究[D]. 李昊迪.哈尔滨工业大学 2018
[2]基于多种数据源的中文知识图谱构建方法研究[D]. 胡芳槐.华东理工大学 2015
硕士论文
[1]基于CNKI的中文医学知识图谱构建与应用[D]. 任玉琪.大连理工大学 2019
[2]基于知识图谱的医疗知识搜索研究[D]. 刘崇.浙江理工大学 2018
本文编号:3544504
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3544504.html
最近更新
教材专著