知识图谱的扩展与检错关键技术研究

发布时间:2021-10-31 09:49
  知识图谱作为当今最有影响力的数据共享源与知识解释工具,其重要程度不言而喻。如今在大数据环境下,随着事物的快速演变,知识图谱的扩展与检错工作成为了研究热点之一。知识图谱扩展与检错的核心任务可细分为两个方面,即对外部知识的理解与对自身内部知识的推理。因此,本文将分别介绍对外部数据源进行解析时遇到的困难与对自身内部知识进行推理时面临的挑战,并通过提出行之有效的解决方案来克服研究内容中的难点。论文主要的研究内容与贡献如下:1.基于集体推理的万维网表格语义理解与实体扩展:传统的集合相似度匹配方法无法对无重叠元素的两个集合进行匹配。由于知识图谱的不完整性与万维网内容的多样性,万维网表格与知识图谱中存在很多语义相似却无法匹配的列与类别。另外,较少的重叠元素还会导致低质量的列类匹配结果。因此,本文提出了一个全局集体推理框架来推理未知列的语义类别,同时还能够大幅度提高列类匹配的Top-k质量,尤其是Top-1的质量。另外,本文设计了一套有效的列语义匹配模型,其中包括了对列的特征抽取以及训练数据的自动生成方法。此外,考虑到数据集的规模,还提出了三种推理策略来提升整体的推理效率。最后,本文采用众包对列类匹配... 

【文章来源】:清华大学北京市 211工程院校 985工程院校 教育部直属院校

【文章页数】:99 页

【学位级别】:博士

【部分图文】:

知识图谱的扩展与检错关键技术研究


图1.2典型知识屢谱示例??

模块图,知识图,内容,万维网


?第1拿绪论???S??/?strr?趋??Semi-structured??^^^^^^Unstructured?Data??^?^?yA?Knowledge?Knowledge?Knowledge??Relational?Tables?/?Matching?Extraction?Representation??^??Knowledge?Quality??Knowledge?Graph?Inference?Evaluation??图1.4知识图谱的维护流程图??识推理模块则是通过对已构建的知识图谱内容进行分析与推理,并进一步发现其??中缺失或错误的知识内容,从而达到知识图谱补全与检错的目的。??1.1.1基于集体推理的万维网表格语义理解与实体扩展??随霞S联网的迅猛发展,万维网上产生了各式各样的数据种类,其格式包括??文本、表格、列表、图片、音频与视频等J余此之外,各类数据的规模更是呈现出??爆炸式的增长趋势,萁中表格数据由于?萁良好的结构化性质,使得其易于应用于??知识抽娶数据挖掘等领域的相关任务。因此,万维网表格数据成为当今最重要的??数据源之一[气并引起了学术界[34-36]与:工业界[37—39]的共同关注。在2008年,谷??歌发表的一份研究报告133,401中指出在一百四十多亿个原始万维网表格中抽取到了??-亿五千四莨多万个关系型数据表格,虽然占比仅为总量的1.1%,但其绝对数釁??已达到可以为各种应用提供服务的规模,例如知识图谱扩展[41’42]、搜索引擊犯441??与在线事务处理等I45^a因此,本文将通过万维网表格数据集的大规模列类匹配??任务对知识图谱中缺失的实体进行了扩

结构图,论文,结构图,万维网


?第1寧緒论???方I細T以非It轻易地与传统的嵌入技术迸行融告.*如TransE、Trans.H、TransR和’??TransD等,来增強其预测结果^本文将在第4章中详细介绍基于关系敏感嵌入式技??术的知识图谱扩展与检错工作。??1.2主要研究内容与贡献??大规模万维网表格数据集的I?基于人机结合的万维网表格??列类匹配与实体抽取?1?^?模式解析与知识抽取??CX?表格模式候选支持?々??实体-类别扩^^?体-关系扩展??国??知识图谱??缺失关系扩展II错误关系纠错??基于知识图谱嵌入式技术的知识推理??图1.5论文结构图??图1.5展示了本文的整体结构,其生要包含了以下三个工怍:???大规褸万维网表格数据集的列类匹配与实体抽取:在大规模万维网表格数据??集中,针对传统方法无怯匹配到的列提ili?了一个全新的全局集体推理框架,??不仅可以有效地推理出未匹配列的语义类别来提高整体匹配结果的召调率,??而旦还可以大幅度改善已匹配列的准确率,尤其是Top-1的匹配结果。最后,??通过利用众包平台来抽取出基宁列类E配结果的新实体,并将其扩展到知识??图谱也???基于人机结#的万维.网表格模式解析与知识抽取:以机器算法的生成结果作??为_础,通过进一步深入研究人机结合技术来吏准确地解析万维网表格的语??义模式,以达到抽取出高麵的全新知识来扩展知识图谱的内容。为降低众??包的成本代价,首先雳要设计有效的机器算法来生成尽可能少且影响力较大??的候选集,即尽爆去除掉无意义的候选项来节省人力资源。然后,,簠点研究??了众包任务分派算法来优化问题的选择策略,以减少问题的总数霉闻时,??8??


本文编号:3467912

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3467912.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aca5c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com