基于自举学习和多视角学习的跨语言实体对齐技术研究

发布时间:2021-01-25 00:11
  多语言知识图谱的构建和应用,推动了许多人工智能相关的跨语言任务的发展。跨语言实体对齐任务是指在多语言场景下,找到不同语言中的匹配实体对的任务。通过跨语言的实体对齐,可以连接和融合不同语言的知识图谱,形成新的知识,增加知识图谱的信息密度。现有方法主要依赖于少量跨语言链接和三元组结构编码实体。随着互联网的发展、众包技术的成熟,大量知识图谱也为实体提供了丰富的实体描述,给文本信息的编码提供了条件。针对结构编码优化,文本编码的引入,以及对齐数据稀少等问题,本文研究并提出了相应的跨语言实体对齐模型。本文的主要贡献如下:(1)提出了基于TransD模型的自举式跨语言实体对齐模型。利用TransD模型增加实体和关系之间的交互,编码知识图谱中的实体和关系,通过三元组损失优化实体的向量表示。对于训练数据中对齐实体对不足的问题,利用自举法筛选训练中得到的新对齐实体对,扩充训练数据。在数据集DBP15K上证明了本文提出的模型在结构编码上的优势以及自举式扩充训练数据的有效性,并从而提升了跨语言实体对齐效果。(2)提出了使用图卷积网络编码知识图谱多视角信息的跨语言实体对齐模型。根据知识图谱三元组和实体描述文本,... 

【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

基于自举学习和多视角学习的跨语言实体对齐技术研究


百度百科中“刘德华”词条

实例图,实体属性,实例,实体


浙江大学硕士学位论文第1章绪论3象。在信息抽娶知识融合阶段都需要进行实体对齐。对于原生知识库,即知识主要来源于相关专家学者或直接来源于广大人群共同编辑维护的Wikipedia[2]、WordNet[3]、百度百科[4]等知识库,会存在同一个实体具有多种名称的情况,需要进行同源实体对齐,也称为实体解析(EntityResolution),判断多个指称是否对应同一且唯一的实体。对于融合知识库,即依靠从原生知识库抽取结构化信息,融合多个数据源而建成的知识库,如DBpedia[5]、Freebase[6]等来说,则需要判断不同数据集中的实体是否指向同一个实体,通过实体对齐来合并数据,去除重复。随着知识图谱的构建以及相关应用的驱动,单语言知识图谱日趋成熟,其中的实体对齐问题取得了很大的进展,多语言知识图谱(如DBpedia[5]、Yago[7]、BabelNet[8]、ConceptNet[9])也逐步建立了起来,跨语言实体对齐——多语言知识图谱中不同语言间的实体对齐任务也逐渐成为热点。如图1-3即为中文百度百科的“刘德华”词条和英文维基百科的“刘德华”页面中,相关结构化信息跨语言对齐的简单示例。图1-3百度百科与维基百科中“刘德华”实体属性对齐实例

模型结构,向量,语言


浙江大学硕士学位论文第2章实体对齐技术综述151,其他维度均为0。这种表示方式结合稀疏存储会非常简洁,但是也存在明显缺陷:词表通常很大,词向量维度会非常大;词和词之间是独立的,无法根据词向量判断两个词的关系。另一类更为常用的词向量表示方式称为分布式表示(DistributedRepresentation),将单词表示为低维实值向量,通常小于1000维,解决了高维稀疏的问题,且能够让语义相近的词在空间中距离更接近。将词分布式表示的过程也经常被称作词嵌入(WordEmbedding)。一般自然语言处理任务关注单语言的词向量表示,双语言词向量表示与单语言词向量表示存在一定的不同之处。双语言词向量表示(此处也即跨语言表示)有三种主要方法。分别是:1、单语言各自训练后,学习语言之间的向量空间转换;2、单语言各自训练后,共同转换到一个统一的语义空间;3、联合学习,同时训练多语言的词向量分布表示。接下来以具体工作说明各类方法。单语训练,跨语言转换单语言分别训练后,学习跨语言空间转换的方式,以Mikolov等人[54]的工作为代表。Mikolov等人首先从大量的单语言语料中用Word2Vec[62]学习到每种语言中的词向量表示,再依赖小型双语语料学习跨语言的词向量的线性映射关系。Word2Vec包含两种训练词向量分布表示的模型,CBOW(ContinuousBag-of-WordsModel)和Skip-gram。CBOW模型的思想是根据一个词语的上下文相关词语来预测该词,而Skip-gram模型则相反,给定特定单词,希望能够输出它的上下文词语。它们的模型结构如图2-1所示。图2-1CBOW和Skip-gram模型结构图

【参考文献】:
期刊论文
[1]知识表示学习研究进展[J]. 刘知远,孙茂松,林衍凯,谢若冰.  计算机研究与发展. 2016(02)
[2]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华.  计算机研究与发展. 2016(01)



本文编号:2998180

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2998180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2906***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com