基于HBase的RDF存储系统的研究与设计
发布时间:2021-04-22 18:09
随着语义Web的发展,资源描述框架(RDF)得到了广泛的应用。然而传统集中式的RDF存储系统在日益增长的数据面前遭遇了难以跨越的存储与查询瓶颈。研究人员开始将目光投向分布式领域,以期利用分布式系统所具备的海量存储与并行计算能力来解决当前集中式RDF存储系统面临的各项问题。本文以RDF存储系统为研究对象,提出了采用分布式存储系统HBase存储RDF数据的方案,以及应用MapReduce并行计算框架进行RDF查询处理的策略。首先,本文介绍了RDF存储系统的研究现状。本文介绍了RDF的概念背景、RDF标准查询语言SPARQL的构成,简述了当前已有的部分分布式RDF存储系统实现以及当前基于Hadoop相关技术的RDF存储研究现状。接着,在深入分析RDF存储系统的各项特性后,本文提出采用分布式存储系统HBase来存储RDF数据的具体方案。RDF数据将被存储在SPO、POS、OSP三张表中。本文描述的方案充分利用了HBase的默认索引机制,在保证RDF查询性能的同时有效地减少了RDF数据的存储开销。然后,本文提出采用MapReduce并行计算框架处理SPARQL查询语言中Basic Graph P...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
图目录
表目录
第1章 绪论
1.1 课题背景
1.2 本文的研究内容
1.3 本文的组织结构
1.4 本章小结
第2章 RDF存储系统研究现状
2.1 SPARQL概述
2.2 RDF存储模型概述
2.2.1 Triple Store
2.2.2 Property Table
2.2.3 Vertical Partitioning
2.2.4 Hexastore
2.3 分布式RDF存储系统概述
2.3.1 RDFPeers
2.3.2 YARS2
2.3.3 4store
2.3.4 Clustered TDB
2.4 基于Hadoop的RDF存储研究概述
2.5 本章小结
第3章 基于HBase的RDF存储系统原型设计
3.1 设计目标
3.2 技术路线
3.2.1 HBase
3.2.2 ARQ
3.2.3 MapReduce
3.3 系统设计
3.3.1 整体架构
3.3.2 功能模块
3.3.3 通信模型
3.4 本章小结
第4章 RDF存储模型定义
4.1 HBase上RDF存储模型分析
4.1.1 应用Triple Store
4.1.2 应用Property Table
4.1.3 应用Vertical Partitioning
4.1.4 应用Hexastore
4.2 HBase上RDF存储模型定义
4.2.1 RDF数据表定义
4.2.2 Triple Pattern查询响应
4.2.3 数据多行切分
4.3 RDF数据导入
4.3.1 RDF数据导入HDFS
4.3.2 RDF数据导入HBase
4.4 本章小结
第5章 RDF查询处理
5.1 SPARQL预处理
5.1.1 SPARQL查询解析
5.1.2 查询计划生成
5.2 BGP连接处理策略
5.2.1 HBase数据读取
5.2.2 HDFS数据读取
5.2.3 Mapper输入输出格式
5.2.4 Map阶段过滤操作
5.2.5 Reduce阶段连接操作
5.2.6 连接处理完整流程
5.3 本章小结
第6章 测试与实验
6.1 实验环境
6.2 RDF查询测试
6.2.1 LUBM Q1、Q3、Q5查询结果分析
6.2.2 LUBM Q2查询结果分析
6.2.3 LUBM Q4查询结果分析
6.2.4 LUBM Q6查询结果分析
6.2.5 LUBM Q7查询结果分析
6.2.6 LUBM Q8查询结果分析
6.2.7 实验结果综合分析
6.3 本章小结
第7章 总结与展望
7.1 特点与创新
7.2 不足与缺陷
7.3 展望
7.4 本章小结
参考文献
攻读硕士学位期间主要的研究成果
致谢
本文编号:3154230
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
图目录
表目录
第1章 绪论
1.1 课题背景
1.2 本文的研究内容
1.3 本文的组织结构
1.4 本章小结
第2章 RDF存储系统研究现状
2.1 SPARQL概述
2.2 RDF存储模型概述
2.2.1 Triple Store
2.2.2 Property Table
2.2.3 Vertical Partitioning
2.2.4 Hexastore
2.3 分布式RDF存储系统概述
2.3.1 RDFPeers
2.3.2 YARS2
2.3.3 4store
2.3.4 Clustered TDB
2.4 基于Hadoop的RDF存储研究概述
2.5 本章小结
第3章 基于HBase的RDF存储系统原型设计
3.1 设计目标
3.2 技术路线
3.2.1 HBase
3.2.2 ARQ
3.2.3 MapReduce
3.3 系统设计
3.3.1 整体架构
3.3.2 功能模块
3.3.3 通信模型
3.4 本章小结
第4章 RDF存储模型定义
4.1 HBase上RDF存储模型分析
4.1.1 应用Triple Store
4.1.2 应用Property Table
4.1.3 应用Vertical Partitioning
4.1.4 应用Hexastore
4.2 HBase上RDF存储模型定义
4.2.1 RDF数据表定义
4.2.2 Triple Pattern查询响应
4.2.3 数据多行切分
4.3 RDF数据导入
4.3.1 RDF数据导入HDFS
4.3.2 RDF数据导入HBase
4.4 本章小结
第5章 RDF查询处理
5.1 SPARQL预处理
5.1.1 SPARQL查询解析
5.1.2 查询计划生成
5.2 BGP连接处理策略
5.2.1 HBase数据读取
5.2.2 HDFS数据读取
5.2.3 Mapper输入输出格式
5.2.4 Map阶段过滤操作
5.2.5 Reduce阶段连接操作
5.2.6 连接处理完整流程
5.3 本章小结
第6章 测试与实验
6.1 实验环境
6.2 RDF查询测试
6.2.1 LUBM Q1、Q3、Q5查询结果分析
6.2.2 LUBM Q2查询结果分析
6.2.3 LUBM Q4查询结果分析
6.2.4 LUBM Q6查询结果分析
6.2.5 LUBM Q7查询结果分析
6.2.6 LUBM Q8查询结果分析
6.2.7 实验结果综合分析
6.3 本章小结
第7章 总结与展望
7.1 特点与创新
7.2 不足与缺陷
7.3 展望
7.4 本章小结
参考文献
攻读硕士学位期间主要的研究成果
致谢
本文编号:3154230
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3154230.html