基于知识表示学习的领域本体辅助构建研究
发布时间:2021-10-24 17:36
为完成多种不同类型的任务,研究人员创建出该相关知识领域的知识库,然而,不同知识库中的数据,表现出结构松散、多源异构的特点。为解决此问题,研究人员开始针对特定领域,创建出满足结构化描述该相关领域概念的方法——“本体”。创建领域本体,其过程极其复杂,在此过程中,不仅需要各种方法的交替使用,更加需要人力资源的参与,为对其过程进行一定的优化,本文的目的在于使用相关的自动学习的方法在领域本体被创建时,针对其过程中的某一特定环节,进行一定的辅助作用。其具体任务为:给定领域知识库,在领域本体创建过程中,利用相关的自动化方法,辅助本体构建过程中的实体到相应概念类的映射,即对实体进行聚类操作。针对此任务,本研究对从Sem Med DB知识库所提取的数据进行处理,使用多跳策略完成相应的实体匹配,并通过三元组过滤构造出针对糖尿病领域的知识库。基于此知识库进行实验,对比研究本文所用模型的有效性。完成本研究中的辅助构建要求,关键在于如何对知识库中的数据——实体,进行有效的表示,而本研究中的知识库的组织形式为知识图谱,其表现为多关系图。因此,本研究中,分别利用知识表示学习中的Trans X翻译模型、Rotat E...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
糖尿病领域本体示例
哈尔滨工业大学工程硕士学位论文-5-其不但能够表示为众所周知的苹果公司,也能够表示成一种水果。基于知识图谱,Google将其研发的搜索引擎Chrome变得更加智能,初步达到了将strings看成things的目标,在这一过程中机器开始逐步去深入理解用户搜索关键词所代表的内涵。知识图谱的最大特点在于其表现形式呈现出高度的结构化特点,其结构展示出了在现实世界中各种事物之间的关联,如图1-2展示了糖尿病的知识图谱。如今,尤其是人工智能领域,知识图谱已经开始被广泛的应用,例如现在较为前沿的网络搜索[8]领域、自动问答领域、搜索引擎领域、信息抽取领域等。知识图谱高度的结构化特点体现在把知识描述为多源多关系的数据并且将其利用三重事实进行表述,实体和关系作为基础构成,实体之间的关系具有不同的类别属性,对于知识存储,利用三元组(头实体,关系,尾实体)对任一事实进行描述,即可表示为(h,r,t),其中h、t分别表示头尾实体,r表示头尾实体之间的关系。以(胰岛素,治疗,糖尿病)为例,此三元组描述了“胰岛素可以治疗糖尿脖这一既定事实。图1-2糖尿病知识图谱示例知识图谱形式化定义为:KG=(V,E,,ψ),其中V代表知识图谱中所存储的实体集合;EV×V代表实体之间相互关联的关系集合,:V→C代表实体向其所属类别的映射函数,ψ:E→C代表关系向其所属类别映射函数。即对每个实体而言,其在C中都有与之一一对应的类别信息,与之同理,对每个关系而言,其在C中也有与之一一对应的类别信息。所谓实体,其对应的是世界上某个客观存在的事物。以本文知识图谱中知识为例,在本知识库中垂体切割术Hypophysectomy和治疗TREATS之间存在part_of部分关系,垂体切割术Hypophysectomy的实体类型是TOPP(TherapeuticorPreventiveProcedure),part_of属于?
哈尔滨工业大学工程硕士学位论文-7-图1-3本体的层次关系针对某个领域,当前任务需要利用该领域内的知识时,首先利用该领域知识库构建该领域的领域本体,从而达到领域知识抽象概括,进行知识复用和共享的过程。因此,构建本体往往被定义一个自上而下的过程[3]。本文主要解决的是基于知识图谱中现有的知识,在本体构建期间对其概念确定起到辅助作用。具体而言,针对给定领域,其实体类别未知,通过自动化的方式对知识库中的实体进行聚类,从而完成抽象概念的提取,达到对知识库中知识进行概念确定的作用。(3)领域本体辅助构建问题澳大利亚科庭大学MajaHadzi等人针对疾病本体,进行了深层次的研究,在第38届国际系统科学会议上,其展示了团队针对疾病本体领域的科研成果,其主要贡献在于对疾病本体的顶层框架进行了定义,其认为疾病本体可以从疾病类型、表型、病因学、治疗手段4个主要的维度进行描述,如图1-4所示。如上述研究所述,本研究中使用的知识库为糖尿病领域知识,而疾病本体顶层框架的存在为辅助构建领域本体提供了先验知识,而这种先验知识的存在启发了本体框架构建的方向。对领域知识库完成知识表示学习之后,对处于高维空间的实体,对其进行聚类,完成相应类别的映射。而在疾病本体的顶层框架指导下,将其划分为四个大类,即初始默认其四大类为疾病类型、表型、病因、治疗手段。即可将本文研究内容形式化描述:输入:糖尿病领域知识库KG,其中任意实体对应的概念种类未知输出:KG中针对实体的四类聚类划分效果。
【参考文献】:
期刊论文
[1]精准医学知识库的构建[J]. 刘雷,王星. 中华医学图书情报杂志. 2018(06)
[2]智能教学系统中基于本体的知识表示及推送研究[J]. 林木辉,张杰,包正委. 福建师范大学学报(自然科学版). 2009(01)
本文编号:3455690
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
糖尿病领域本体示例
哈尔滨工业大学工程硕士学位论文-5-其不但能够表示为众所周知的苹果公司,也能够表示成一种水果。基于知识图谱,Google将其研发的搜索引擎Chrome变得更加智能,初步达到了将strings看成things的目标,在这一过程中机器开始逐步去深入理解用户搜索关键词所代表的内涵。知识图谱的最大特点在于其表现形式呈现出高度的结构化特点,其结构展示出了在现实世界中各种事物之间的关联,如图1-2展示了糖尿病的知识图谱。如今,尤其是人工智能领域,知识图谱已经开始被广泛的应用,例如现在较为前沿的网络搜索[8]领域、自动问答领域、搜索引擎领域、信息抽取领域等。知识图谱高度的结构化特点体现在把知识描述为多源多关系的数据并且将其利用三重事实进行表述,实体和关系作为基础构成,实体之间的关系具有不同的类别属性,对于知识存储,利用三元组(头实体,关系,尾实体)对任一事实进行描述,即可表示为(h,r,t),其中h、t分别表示头尾实体,r表示头尾实体之间的关系。以(胰岛素,治疗,糖尿病)为例,此三元组描述了“胰岛素可以治疗糖尿脖这一既定事实。图1-2糖尿病知识图谱示例知识图谱形式化定义为:KG=(V,E,,ψ),其中V代表知识图谱中所存储的实体集合;EV×V代表实体之间相互关联的关系集合,:V→C代表实体向其所属类别的映射函数,ψ:E→C代表关系向其所属类别映射函数。即对每个实体而言,其在C中都有与之一一对应的类别信息,与之同理,对每个关系而言,其在C中也有与之一一对应的类别信息。所谓实体,其对应的是世界上某个客观存在的事物。以本文知识图谱中知识为例,在本知识库中垂体切割术Hypophysectomy和治疗TREATS之间存在part_of部分关系,垂体切割术Hypophysectomy的实体类型是TOPP(TherapeuticorPreventiveProcedure),part_of属于?
哈尔滨工业大学工程硕士学位论文-7-图1-3本体的层次关系针对某个领域,当前任务需要利用该领域内的知识时,首先利用该领域知识库构建该领域的领域本体,从而达到领域知识抽象概括,进行知识复用和共享的过程。因此,构建本体往往被定义一个自上而下的过程[3]。本文主要解决的是基于知识图谱中现有的知识,在本体构建期间对其概念确定起到辅助作用。具体而言,针对给定领域,其实体类别未知,通过自动化的方式对知识库中的实体进行聚类,从而完成抽象概念的提取,达到对知识库中知识进行概念确定的作用。(3)领域本体辅助构建问题澳大利亚科庭大学MajaHadzi等人针对疾病本体,进行了深层次的研究,在第38届国际系统科学会议上,其展示了团队针对疾病本体领域的科研成果,其主要贡献在于对疾病本体的顶层框架进行了定义,其认为疾病本体可以从疾病类型、表型、病因学、治疗手段4个主要的维度进行描述,如图1-4所示。如上述研究所述,本研究中使用的知识库为糖尿病领域知识,而疾病本体顶层框架的存在为辅助构建领域本体提供了先验知识,而这种先验知识的存在启发了本体框架构建的方向。对领域知识库完成知识表示学习之后,对处于高维空间的实体,对其进行聚类,完成相应类别的映射。而在疾病本体的顶层框架指导下,将其划分为四个大类,即初始默认其四大类为疾病类型、表型、病因、治疗手段。即可将本文研究内容形式化描述:输入:糖尿病领域知识库KG,其中任意实体对应的概念种类未知输出:KG中针对实体的四类聚类划分效果。
【参考文献】:
期刊论文
[1]精准医学知识库的构建[J]. 刘雷,王星. 中华医学图书情报杂志. 2018(06)
[2]智能教学系统中基于本体的知识表示及推送研究[J]. 林木辉,张杰,包正委. 福建师范大学学报(自然科学版). 2009(01)
本文编号:3455690
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3455690.html