一种基于Hadoop的RDF数据划分与存储研究
发布时间:2020-07-11 01:38
【摘要】:语义Web是当前万维网的一种扩展,通过为万维网的文档添加可被计算机自动识别的语义信息,促进计算机之间及其与人之间的协同工作,实现数据的自动化处理,从而提高信息检索的效率。但随着语义Web数据量的急剧增长,RDF数据的存储和检索面临严峻的挑战,幸运的是,Hadoop平台的MapReduce并行框架和分布式数据库HBase能够满足海量数据的查询与存储需求,本文基于Hadoop平台对RDF数据的存储以及加载任务进行有益的研究,主要研究工作及成果如下: (1)设计一种以HBase为存储介质、基于OWL的RDF数据存储方案。该方案采用HBase作为存储介质,基于OWL本体文件中定义的语义信息设计多张表以存储RDF数据。首先设计NOSClass表和NOSProperty表用于保存OWL语义信息,为推理和查询优化操作提供依据;接着为本体的每个类设计S PO和O PS两张表,用以保存该类的所有三元组信息;最后设计NOSType表和NOSInstance表用于保存谓语为"rdf:type"的所有三元组数据。 (2)设计一种高效的并行式解析、划分和加载RDF数据的算法。首先使用一个MapReduce任务并行解析RDF数据并按三元组的主语所属于的类进行划分;然后逐个将划分的三元组文件转换成相应的HFile文件;接着使用Bulk Load命令将HFile文件逐个加载到HBase集群中;最后在Hadoop平台上验证本文提出的并行式解析和加载RDF数据算法的有效性。 (3)本文结合选择度估值和三元组模式分组两种查询优化方法的特征,提出一种混合优化方法,先使用三元组模式分组方法将输入的三元组模式划分到七种类型中,对每个类型里的多个三元组模式使用选择度估值方法进行排序,从而生成查询执行计划,最后在Hadoop的单机伪分布式平台上验证本文提出的混合优化方法的有效性。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP391.1
本文编号:2749770
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP391.1
【参考文献】
相关期刊论文 前1条
1 叶育鑫;欧阳丹彤;;混合语义约简和选择估值优化SPARQL[J];电子学报;2010年05期
相关硕士学位论文 前2条
1 沈文南;一个RDF存储与查询系统的设计与实现[D];东南大学;2006年
2 刘静;RDF查询中非强制匹配问题研究[D];河海大学;2007年
本文编号:2749770
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2749770.html