海量RDF数据存储与查询技术的研究与实现
本文选题:语义网 切入点:RDF 出处:《北京工业大学》2013年硕士论文
【摘要】:随着互联网上数据规模的日益增长,人们准确、快速、全面获取信息变得越来越困难,语义网(Semantic Web)通过对互联网增加语义支持,使机器能够理解数据的含义,帮助人们快速获取信息资源。RDF(Resource Description Framework,资源描述框架)是语义网中数据交换的标准,它以主语,谓词,宾语三元组的形式描述语义信息。随着语义网技术的不断完善与广泛应用,RDF数据规模也在急剧增加,海量RDF数据的涌现给RDF的管理带来巨大挑战,构建可扩展的RDF存储和查询系统成为语义网领域的研究热点。 MapReduce是近年来新兴的海量数据处理技术,Hadoop是MapReduce开源实现工具,基于Hadoop平台研究海量数据处理问题被广泛关注;HBase(HadoopDatabase),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,和Hadoop MapReduce有着完善的集成机制。通过研究RDF存储和查询的原理以及HBase的特点,分析HBase存储RDF的优势,给出了一个基于HBase的RDF存储系统设计方案,并实现了RDF存储原型系统,主要包括以下内容: 1.根据RDF存储和查询的特点,,结合HBase自身的索引机制以及行健(HBase RowKey)按字典排序的特性,设计了RDF在HBase上的存储模式。 2.针对海量RDF数据的加载问题,给出了一种基于MapReduce的并行加载算法,实现将RDF数据快速加载到HBase的功能。 3.根据RDF在HBase上的存储模式,设计了三元组模式查询响应策略;采用MapReduce迭代实现基本图模式查询的并行处理,给出了一种以HBase Region为数据源的MapReduce并行连接(join)方法。 通过构建基于HBase的RDF存储原型系统,采用基准测试工具对系统的加载性能和查询性能进行了测试和分析,试验表明基于HBase实现海量RDF数据的存储和查询系统是一种有效的可选方案。
[Abstract]:With the increasing scale of data on the Internet, it is becoming more and more difficult for people to obtain information accurately, quickly and comprehensively. The semantic Web adds semantic support to the Internet to enable machines to understand the meaning of data. RDF Resource Description Framework (Resource description Framework) is the standard of data exchange in the semantic Web. With the continuous improvement and wide application of semantic Web technology, the scale of RDF data is increasing rapidly, and the emergence of massive RDF data brings great challenges to the management of RDF. The construction of extensible RDF storage and query systems has become a research hotspot in the semantic web. MapReduce is a newly emerging mass data processing technology in recent years. Hadoop is an open source MapReduce implementation tool. The research of mass data processing based on Hadoop platform has been widely concerned. It is a high reliability, high performance, column oriented, scalable distributed storage system. It has perfect integration mechanism with Hadoop MapReduce. By studying the principle of RDF storage and query and the characteristics of HBase, this paper analyzes the advantages of HBase storage RDF, presents a RDF storage system design scheme based on HBase, and implements the RDF storage prototype system. It mainly includes the following:. 1. According to the characteristics of RDF storage and query, combined with the index mechanism of HBase and the dictionary-sorting property of HBase, the storage mode of RDF on HBase is designed. 2. Aiming at the loading problem of massive RDF data, a parallel loading algorithm based on MapReduce is presented, which can load RDF data into HBase quickly. 3. According to the storage mode of RDF on HBase, the query response strategy of triple schema is designed, the parallel processing of basic graph schema query is realized by MapReduce iteration, and a MapReduce parallel join method based on HBase Region is presented. By constructing the RDF storage prototype system based on HBase, the loading performance and query performance of the system are tested and analyzed by using the benchmark tool. The experiment shows that the storage and query system of massive RDF data based on HBase is an effective alternative.
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 宋庆美,周明刚;基于XML的三个常用元数据描述工具的评价与比较[J];情报科学;2003年06期
2 梅晓勇,肖政宏;基于XML的排课系统研究与实现[J];湖南城建高等专科学校学报;2003年03期
3 董爱兵,王小平,曹立明;基于FIPA ACL和RDF的Agent通信语言[J];计算机应用研究;2005年07期
4 任磊;谭跃生;;基于RDF元数据的网格资源统一描述方法[J];内蒙古科技大学学报;2009年02期
5 任瑞娟;XML对数字图书馆的影响[J];大学图书馆学报;2002年06期
6 张惠文;基于XML的元数据架构[J];情报科学;2002年10期
7 张惠文;基于XML的元数据架构[J];现代情报;2002年07期
8 李晓红,侯敏;网络环境下元数据格式比较研究[J];图书馆学刊;2003年05期
9 罗三定,廖程锋;一种新的搜索引擎探讨[J];情报学报;2004年04期
10 周智昊;;资源描述框架的形式化表示问题研究[J];华中农业大学学报(社会科学版);2007年04期
相关会议论文 前10条
1 华雯;王琰;陈跃国;陈晋川;杜小勇;;一个基于演化聚类的RDF数据管理系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 陶导;钱卫宁;魏芳;周傲英;;基于关系数据库的RDF数据存储[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 吴刚;杨梦冬;;RDF数据的并行处理及性能评价[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 李勋龙;郭瑞强;丁祥武;乐嘉锦;;基于RDF模式的存储方法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 周斌;雷建国;;一项新型垃圾衍生燃料(RDF)制备工艺系统[A];2010中国环境科学学会学术年会论文集(第四卷)[C];2010年
6 黄新艳;姚文琳;徐建良;;基于汉英双语语料库的汉英Ontology的建立与管理[A];第七届青年学术会议论文集[C];2005年
7 石翌轶;;基于前向链策略的RDF闭包生成技术研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 王伯春;刘宝林;李代禧;余德洋;;不同条件下水玻璃化过程的模拟[A];第六届全国低温生物医学及器械学术大会论文集[C];2009年
9 徐慧;刘会芬;肖德宝;熊磊;徐艳;;面向语义网的智能信息检索研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
10 王丹;赵荣娟;;P2P系统中一种基于代理的RDF文档查询模型[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
相关重要报纸文章 前10条
1 本报驻英国记者 刘海英;未来的网络知你心[N];科技日报;2011年
2 本报记者 汤铭;IBM六大举措助海量产品再爆发[N];计算机世界;2011年
3 本报记者 霍皓迪;海量时代是否到来?[N];通信产业报;2001年
4 本报记者 武汉;海量处理构筑新电信[N];网络世界;2001年
5 本报记者 梁晓亮;三项技术扮靓江南水乡[N];经济日报;2009年
6 ;着眼未来迎接海量处理时代[N];网络世界;2001年
7 本报记者 刘燕;中国电信数据网向光速海量迈进[N];中国经营报;2002年
8 黄绍平;硬盘打造海量MP3[N];中国电子报;2002年
9 本报记者 肖春江;海量存储 海量内涵[N];计算机世界;2000年
10 本报记者 汪云;佳杰拓展海量分销业务[N];计算机世界;2002年
相关博士学位论文 前10条
1 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
2 施冬材;基于对等网络的语义发布/订阅系统的关键技术研究[D];浙江大学;2007年
3 郭晓君;关联课程数据组织及知识管理研究[D];武汉大学;2012年
4 姜赢;维度本体及其应用[D];武汉大学;2009年
5 袁远明;智慧城市信息系统关键技术研究[D];武汉大学;2012年
6 谢铭;关联数据和知识表示的自动语义标注技术[D];武汉大学;2012年
7 尹华罡;基于海量时空数据的路线挖掘与检索[D];中国科学技术大学;2012年
8 杨正益;制造物联海量实时数据处理方法研究[D];重庆大学;2012年
9 田丰林;海量三维模型的交互绘制[D];浙江大学;2010年
10 曹海傧;海量视频的分布式协作处理与检索研究[D];中国科学技术大学;2013年
相关硕士学位论文 前10条
1 宋纪成;海量RDF数据存储与查询技术的研究与实现[D];北京工业大学;2013年
2 杨琴;基于关系数据库的RDF存储与查询的研究与实现[D];电子科技大学;2010年
3 朱敏;基于HBase的RDF数据存储与查询研究[D];南京大学;2013年
4 秦冬生;基于云计算的RDF数据存储系统的研究[D];合肥工业大学;2013年
5 刘畅;基于大规模模糊RDF数据的推理引擎[D];上海交通大学;2012年
6 曹佳硕;基于RDF的云制造资源数据存储及检索方法的研究与实现[D];北京交通大学;2013年
7 郭亨亨;海量RDF数据的分布式存储研究[D];西安建筑科技大学;2010年
8 卢珊;UML类图模型到RDF(S)的映射方法的研究[D];东北大学;2010年
9 孙博;RDF数据管理系统研究[D];天津大学;2010年
10 吴德龙;基于存储优化模型的RDF数据查询机制研究[D];华中科技大学;2011年
本文编号:1662536
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1662536.html