分布式环境下的RDF子图匹配方法研究
发布时间:2021-02-15 09:49
如今,随着知识图谱的兴起,越来越多的数据集采用资源描述框架(RDF)的格式发布和维护数据,由于RDF数据天然的图结构模型,可以将SPARQL检索RDF数据问题转换为大图上的子图匹配问题。大量RDF数据的发布,使得利用SPARQL查询进行RDF数据的检索超出了单机处理能力的限制,基于分布式的图匹配方法日益受到关注。在分布式RDF查询处理中,由于查询图的规模与复杂度的不断增长,其复杂的结构使得查询优化面临着查询准确性和性能的双重挑战。针对以上问题,本文通过比较当前主流的分布式RDF图查询优化方案的优缺点,经过理论分析与实验验证,提出了一种由结构主导的分布式子图匹配优化方法。本课题研究期间的主要工作如下:首先,对于数据进行预处理。通过Jena2将OWL本体数据集进行数据抽取处理,得到便于处理的NT格式的RDF元数据,利用字典编码技术将冗长的元数据信息以整数id形式进行压缩存储;提出了本文的摘要统计图模式,利用基于类型的数据统计方式对本文提出的代价模型计算所需要的相关数据进行预收集与统计;提出了针对图探索策略所制定的数据图的分区方式及基于内存的数据存储索引结构,将压缩之后的整形三元组数据依据整...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 问题描述与研究内容
1.3 国内外研究现状
1.4 论文组织结构
2 相关概念及关键技术
2.1 RDF数据模型和SPARQL查询模型
2.1.1 RDF数据模型
2.1.2 SPARQL查询模型
2.2 键值对存储和倒排索引
2.2.1 键值对存储
2.2.2 倒排索引
2.3 图探索策略
2.4 推迟笛卡尔积
2.5 本章小结
3 系统框架及数据预处理
3.1 SDSM框架
3.1.1 SDSM的IPO流程
3.1.2 SDSM框架概述
3.2 RDF数据图预处理
3.2.1 字典编码
3.2.2 数据的分区划分及存储模式
3.2.3 基于类型的统计概要
3.3 本章小结
4 基于结构分解的RDF并行子图匹配模型
4.1 查询预处理
4.1.1 CPM查询图分解模型
4.1.2 查询计划生成
4.2 查询执行
4.2.1 将查询图转化为查询计划树
4.2.2 高并发的子路径匹配连接算法
4.3 本章小结
5 综合实验分析
5.1 实验环境与数据集
5.2 实验对比及分析
5.2.1 查询效率对比
5.2.2 可扩展性评估
5.2.3 实验结论
5.3 本章小结
总结与展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
【参考文献】:
期刊论文
[1]分布式RDF数据管理综述[J]. 邹磊,彭鹏. 计算机研究与发展. 2017(06)
本文编号:3034616
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 问题描述与研究内容
1.3 国内外研究现状
1.4 论文组织结构
2 相关概念及关键技术
2.1 RDF数据模型和SPARQL查询模型
2.1.1 RDF数据模型
2.1.2 SPARQL查询模型
2.2 键值对存储和倒排索引
2.2.1 键值对存储
2.2.2 倒排索引
2.3 图探索策略
2.4 推迟笛卡尔积
2.5 本章小结
3 系统框架及数据预处理
3.1 SDSM框架
3.1.1 SDSM的IPO流程
3.1.2 SDSM框架概述
3.2 RDF数据图预处理
3.2.1 字典编码
3.2.2 数据的分区划分及存储模式
3.2.3 基于类型的统计概要
3.3 本章小结
4 基于结构分解的RDF并行子图匹配模型
4.1 查询预处理
4.1.1 CPM查询图分解模型
4.1.2 查询计划生成
4.2 查询执行
4.2.1 将查询图转化为查询计划树
4.2.2 高并发的子路径匹配连接算法
4.3 本章小结
5 综合实验分析
5.1 实验环境与数据集
5.2 实验对比及分析
5.2.1 查询效率对比
5.2.2 可扩展性评估
5.2.3 实验结论
5.3 本章小结
总结与展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
【参考文献】:
期刊论文
[1]分布式RDF数据管理综述[J]. 邹磊,彭鹏. 计算机研究与发展. 2017(06)
本文编号:3034616
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3034616.html