基于深度学习的知识图谱补全技术研究
发布时间:2021-11-04 14:25
知识图谱是事实三元组的集合,也可以看成是实体和关系组成的语义网络。随着谷歌将知识图谱用在搜索引擎中,诸如推荐系统、智能问答邻域也开始大规模使用知识图谱。然而现有的知识图谱,通常都是不完备的,知识图谱中缺失很多事实中存在的三元组。许多工作致力于知识图谱补全任务,即利用已有的三元组向知识图谱中添加新的三元组。以TransE为代表的基于嵌入的知识图谱补全模型将实体和关系映射到低维稠密的向量空间,在此基础上构造关于三元组的评分函数以衡量三元组的正确程度。这类知识图谱补全模型通常被归类为静态知识图谱补全任务,即在测试阶段出现的实体和关系都是在训练阶段已经见过的,模型有实体和关系的向量表示。Hamaguchi提出了OOKB(out of knowledge base)问题,在知识图谱补全任务中测试阶段会出现新的实体,我们把这些新的实体称为OOKB实体。因为模型没有见过OOKB实体,模型没有OOKB实体的向量表示。OOKB问题属于动态知识图谱补全任务。为解决OOKB问题,Hamaguchi提出了传播模型和输出模型两阶段模型。近年来,以卷积神经网络、循环神经网络、注意力机制为代表的深度学习技术在自然语...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
知识图谱示例
第二章知识图谱补全简介9第二章知识图谱补全简介知识图谱补全的研究已经取得了一些进展。本章首先对知识图谱中的向量表示进行介绍。其次对知识图谱补全邻域的一些经典模型进行回顾。然后,以TransE模型为例介绍知识图谱补全模型的训练方法。最后,介绍了OOKB问题,并指出现有模型的一些不足,也是我们后面章节需要改进的重点。2.1知识图谱中的向量表示利用计算机研究文本时,我们要将单词表达成适当的形式,称其为“词嵌入”。如,“BASKETBALL”,通常表示成为一个向量。经过词嵌入过程得到单词的向量表示后,我们就可以在向量上实施各种操作,解决具体的问题。而在知识图谱中我们将实体和关系表示成向量。词的向量表示的研究有很多,在这里我们将介绍两种表示方式。2.1.1独热编码用独热编码也就是one-hot编码表示单词时,首先要创建一个词表库,并将每个词按顺序编号。如果词库表有n个单词,那每个单词的one-hot编码就是一个n维的向量,其序号位置的元素是1,其它位置的元素是0。我们以这几个城市为例,{北京,上海,广州,深圳,武汉,杭州,成都},构建one-hot编码。城市列表一共有七个城市,所以one-hot编码的维度为7。其中一种编码如下如图2-1所示。图2-1图的独热编码示意图
,同时造成了模型在计算上的困难;(3).词的表示随着数据集的变化而变化,这显然是不合常理的。独热编码的这些缺点限制了独热编码在自然语言领域中的应用场景。针对这些缺点,研究人员提出了很多方法,嵌入表示是其运用比较广泛的一种。2.1.2嵌入表示词嵌入是将单词映射到固定维度的稠密低维向量空间,通常在几十维到上百维之间。每一维度代表着一种特征,由于没有具体含义称其为隐特征。将其映射到稠密低维向量空间后,就可以在此基础上进行向量运算。通常如果对象在现实世界中的语义越相似,那么他们在向量空间越接近。如图2-2所示。图2-2图的嵌入表示示意图典型的词嵌入模型是Word2Vec[16],可以分为CBOW和Skip-gram。Skip-gram模型架构如图2-3所示,主要是通过中心单词预测周围单词的分布,通过这种方式学习单词的向量表示,由于篇幅限制这里就不做详细展开。词嵌入表示的思想来源于语言学中的假设,在相同语境中出现的词语具有相似的语义,也即是一个词的含义由其周围词的分布决定。这种稠密的低维向量有两个优点:一是计算方便,因为大多数神经网络在高维稀疏的向量空间上表现不好,而稠密的低维向量能够弥补这样的不足;二是提供了语义相关性,即可以通过计算嵌入向量之间的相似性,推导出词与词之间的语义相似性。知识图谱嵌入表示与自然语言中词的嵌入表示密切相关。知识图谱可以类比为自然语言处理中的词袋,相应地,知识图谱中的实体和关系就可以类比为词袋中的词。当我们把嵌入表示应用到知识图谱中的实体和关系时,实际上是做出了假设,即知识图谱中实体或关系的语义取决于其周围的分布。此外,通过知识图谱嵌入表示,可以将实体和关系表示成稠密低维实值嵌入向量,从而将知识图谱
【参考文献】:
期刊论文
[1]知识图谱补全算法综述[J]. 丁建辉,贾维嘉. 信息通信技术. 2018(01)
本文编号:3475912
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
知识图谱示例
第二章知识图谱补全简介9第二章知识图谱补全简介知识图谱补全的研究已经取得了一些进展。本章首先对知识图谱中的向量表示进行介绍。其次对知识图谱补全邻域的一些经典模型进行回顾。然后,以TransE模型为例介绍知识图谱补全模型的训练方法。最后,介绍了OOKB问题,并指出现有模型的一些不足,也是我们后面章节需要改进的重点。2.1知识图谱中的向量表示利用计算机研究文本时,我们要将单词表达成适当的形式,称其为“词嵌入”。如,“BASKETBALL”,通常表示成为一个向量。经过词嵌入过程得到单词的向量表示后,我们就可以在向量上实施各种操作,解决具体的问题。而在知识图谱中我们将实体和关系表示成向量。词的向量表示的研究有很多,在这里我们将介绍两种表示方式。2.1.1独热编码用独热编码也就是one-hot编码表示单词时,首先要创建一个词表库,并将每个词按顺序编号。如果词库表有n个单词,那每个单词的one-hot编码就是一个n维的向量,其序号位置的元素是1,其它位置的元素是0。我们以这几个城市为例,{北京,上海,广州,深圳,武汉,杭州,成都},构建one-hot编码。城市列表一共有七个城市,所以one-hot编码的维度为7。其中一种编码如下如图2-1所示。图2-1图的独热编码示意图
,同时造成了模型在计算上的困难;(3).词的表示随着数据集的变化而变化,这显然是不合常理的。独热编码的这些缺点限制了独热编码在自然语言领域中的应用场景。针对这些缺点,研究人员提出了很多方法,嵌入表示是其运用比较广泛的一种。2.1.2嵌入表示词嵌入是将单词映射到固定维度的稠密低维向量空间,通常在几十维到上百维之间。每一维度代表着一种特征,由于没有具体含义称其为隐特征。将其映射到稠密低维向量空间后,就可以在此基础上进行向量运算。通常如果对象在现实世界中的语义越相似,那么他们在向量空间越接近。如图2-2所示。图2-2图的嵌入表示示意图典型的词嵌入模型是Word2Vec[16],可以分为CBOW和Skip-gram。Skip-gram模型架构如图2-3所示,主要是通过中心单词预测周围单词的分布,通过这种方式学习单词的向量表示,由于篇幅限制这里就不做详细展开。词嵌入表示的思想来源于语言学中的假设,在相同语境中出现的词语具有相似的语义,也即是一个词的含义由其周围词的分布决定。这种稠密的低维向量有两个优点:一是计算方便,因为大多数神经网络在高维稀疏的向量空间上表现不好,而稠密的低维向量能够弥补这样的不足;二是提供了语义相关性,即可以通过计算嵌入向量之间的相似性,推导出词与词之间的语义相似性。知识图谱嵌入表示与自然语言中词的嵌入表示密切相关。知识图谱可以类比为自然语言处理中的词袋,相应地,知识图谱中的实体和关系就可以类比为词袋中的词。当我们把嵌入表示应用到知识图谱中的实体和关系时,实际上是做出了假设,即知识图谱中实体或关系的语义取决于其周围的分布。此外,通过知识图谱嵌入表示,可以将实体和关系表示成稠密低维实值嵌入向量,从而将知识图谱
【参考文献】:
期刊论文
[1]知识图谱补全算法综述[J]. 丁建辉,贾维嘉. 信息通信技术. 2018(01)
本文编号:3475912
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3475912.html
最近更新
教材专著