面向web规模RDF数据查询算法的研究与实现
本文选题:语义网 + RDF数据 ; 参考:《东北大学》2014年硕士论文
【摘要】:目前因特网发展出现瓶颈的原因之一是由于没有赋予网络上的全部资源足够的语义信息。最主要的原因在于,现在的网络主要是基于超链接实现的,网络只是知道如何显示资源,却不清楚资源的实际含义。而RDF (Resource Description Framework)正是由W3C提出的语义网的标准描述框架。随着信息提取技术的发展和语义网的不断进步,网络中涌现出大量的RDF数据,如何存储、管理以及检索如此庞大的RDF数据已经成为了一项棘手却亟待解决的问题。SPARQL查询是W3C提出的对RDF进行查询的标准查询语言。目前RDF查询算法面临的主要问题是:(1)不支持带有通配符的SPARQL查询。(2)不能支持实时在线更新。(3)可扩展性差。本文基于以上三个问题,提出了基于索引的查询算法以及分布式环境的查询算法。针对以上问题,首先在第三章基于索引的查询算法中做了如下工作:(1)采取基于图的模型来存储RDF数据。具体地讲,本文通过基于索引的邻接表存储RDF数据。(2)本文在原始RDF图的基础上,对每个实体和类顶点增加一个标记信息。随之,提出了一种新的索引结构VS*-tree。它可以对上述带有数字标记信息的RDF图进行快速索引,且维护代价较低,易于更新。(3)针对带有数字标记信息的数据图,本节提出了一种新的剪枝规则,这种剪枝规则可以完美的嵌入到本文提出的查询算法中,并且同时适用于普通SPARQL查询和带有通配符的SPARQL查询。其次,本文充分考虑了RDF数据本身的特点,在第四章分布式环境的算法中(1)提出了一种扩展性强的RDF数据系统,该系统可以通过Hadoop框架可以直接利用任何现有集中式算法。(2)提出的数据分割技术和存储技术可以显著的降低查询过程中的数据通信量。(3)给出了一种可以自动将查询分解成可并行执行片段的算法,使得大量独立执行片段可以在不进行通信的前提下,在数据存储节点独立获得查询子结果,进一步提高了算法的可扩展性。在本文的最后,通过大量实验验证了本文算法的有效性及高效性。
[Abstract]:One of the reasons for the bottleneck in the development of the Internet is that it does not give sufficient semantic information to all the resources on the network.The main reason is that the current network is mainly based on hyperlinks, the network only knows how to display resources, but not the actual meaning of resources.RDF Resource Description Framework is the standard description framework of semantic Web proposed by W3C.With the development of information extraction technology and the continuous progress of semantic web, a large number of RDF data emerge in the network, how to store,Managing and retrieving such huge RDF data has become a thorny and urgent problem. Sparql query is a standard query language proposed by W3C to query RDF.At present, the main problem of RDF query algorithm is that SPARQL query with wildcard character is not supported by SPARQL query.Based on the above three problems, this paper proposes an index-based query algorithm and a distributed environment query algorithm.In order to solve the above problems, we first do the following work in the third chapter indexing based query algorithm: 1) using graph based model to store RDF data.Specifically, this paper stores RDF data through an index-based adjacency table.) on the basis of the original RDF graph, this paper adds a marker information to each entity and class vertex.Then, a new index structure, VS- tree, is proposed.This section proposes a new pruning rule for data graphs with digital tag information, which can be indexed quickly and easily updated with low maintenance cost.This pruning rule can be perfectly embedded into the query algorithm proposed in this paper and can be applied to both normal SPARQL queries and SPARQL queries with wildcard characters.Secondly, this paper takes the characteristics of RDF data into full consideration, and in chapter 4, the algorithm of distributed environment, we propose a kind of RDF data system with strong expansibility.The system can directly use any existing centralized algorithm. The data segmentation technology and the storage technology can significantly reduce the data traffic in the query process through the Hadoop framework.An algorithm that decomposes into parallel execution fragments,A large number of independent execution fragments can obtain query sub-results independently in the data storage node without communication, which further improves the scalability of the algorithm.At the end of this paper, the effectiveness and efficiency of the proposed algorithm are verified by a large number of experiments.
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.4
【相似文献】
相关期刊论文 前10条
1 张丽红;;查询算法的优化设计[J];职大学报;2009年02期
2 陈富强;奚建清;;商覆盖立方体中下掘与上卷操作的查询算法设计[J];信息技术;2011年04期
3 李英女,郑国雄;铁路客运信息查询算法[J];铁路计算机应用;2000年02期
4 徐红波;郝忠孝;;一种基于Z曲线近似k-最近对查询算法[J];计算机研究与发展;2008年02期
5 刘平;陈旭灿;李思昆;;嵌入式空间数据库综合查询算法[J];计算机工程;2008年17期
6 赵智慧;;基于对象方向方位的连续方向查询算法[J];齐齐哈尔大学学报(自然科学版);2010年04期
7 徐红波;韩启龙;潘海为;;空间数据库最优位置查询算法研究[J];计算机工程与应用;2011年18期
8 杜左强;基于对象的空间数据库的方位查询算法[J];信息技术;2004年07期
9 徐红波;郝忠孝;;一种采用Z曲线高维空间范围查询算法[J];小型微型计算机系统;2009年10期
10 高静波,李新友,唐泽圣,周晓辉;半动态矩形交查询算法[J];软件学报;1997年08期
相关会议论文 前10条
1 洪润秋;金文;陈钢;王能斌;;迭代查询子查询算法的研究[A];第十一届全国数据库学术会议论文集[C];1993年
2 常珂;刘辰;杨正球;;基于树状结构的查询算法的设计与实现[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 孙焕良;刘江秀;许景科;;基于楔的时间序列流双向封装过滤查询算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 董科;王国仁;宁博;毛克明;赵相国;;基于压缩叶子流的XML Twig查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 刘旭辉;冯建华;洪亲;;一种支持更新的图可达性查询算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 刘怡;郝云飞;;一种有效的复调音乐查询算法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
8 黄海;侯颖;朱圣平;;一种多维向量并行查询算法[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
9 徐忠华;张剡;陈玲;柏文阳;;基于星型模型的轮廓连接查询算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 陈冬霞;吉根林;武志峰;;一种基于签名的XML查询算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
相关博士学位论文 前7条
1 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
2 刘润涛;基于序的空间数据索引及查询算法研究[D];哈尔滨理工大学;2009年
3 季长清;云计算环境下的大规模空间近邻查询算法研究[D];大连海事大学;2014年
4 邹磊;图数据库中的子图查询算法研究[D];华中科技大学;2009年
5 谢鲲;布鲁姆过滤器查询算法及其应用研究[D];湖南大学;2007年
6 刘艳;基于主存的高维空间连接及查询算法研究[D];哈尔滨理工大学;2011年
7 田小梅;多布鲁姆过滤器查询算法及其应用研究[D];湖南大学;2013年
相关硕士学位论文 前10条
1 黄海龙;大规模图的图查询算法研究[D];燕山大学;2015年
2 李青;分布式计算环境下海量RDF数据的skyline查询研究[D];郑州大学;2015年
3 邓育;空间近似关键字反远邻查询方法研究[D];安徽工业大学;2015年
4 于世龙;信息物理融合系统资源索引与查询技术研究[D];国防科学技术大学;2013年
5 郭岩;实时数据流相似性查询算法的研究[D];华北电力大学;2015年
6 钟丽娟;时间序列数据相似性与聚合top-k查询算法研究与应用[D];浙江大学;2016年
7 李海莉;面向高速骨干网的网络流量测量关键技术研究[D];解放军信息工程大学;2014年
8 孟凡帅;基于HDFS的时空数据共享与查询隐私保护的研究与实现[D];东北大学;2014年
9 刘增兰;同构发布/订阅系统的系统最优化与并行查询算法的研究与实现[D];东北大学;2014年
10 叶向东;面向web规模RDF数据查询算法的研究与实现[D];东北大学;2014年
,本文编号:1751622
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1751622.html