基于属性表的RDF数据存储系统研究
本文关键词:基于属性表的RDF数据存储系统研究 出处:《南京大学》2013年硕士论文 论文类型:学位论文
更多相关文章: RDF数据 属性表 存储系统 PID控制器 Jena
【摘要】:语义网是对当前万维网的扩展,通过在网页中加入语义内容,使得计算机能够更好地理解和处理这些信息。RDF是语义网中用来表示知识的数据模型,伴随语义网的发展RDF正得到越来越广泛的应用。随着RDF数据量的增加,如何高效地存储大量RDF数据成为一个难题。本文从RDF数据的属性表存储方法出发,研究针对RDF数据的属性选择算法、属性表动态调整算法及其相关技术。 已有研究表明,不同的RDF数据集和查询往往需要不同的存储方案,现有的RDF存储方法在不同应用场景下各有优劣。属性表存储方法由于可以根据不同查询动态定制属性表结构,因此备受青睐。属性表存储需要指定一个属性选择算法,来确定各属性表中的属性,目前主流的属性选择算法大多直接套用其他领域类似问题的解决办法,例如数据挖掘中的关联规则挖掘算法、分布式数据库中的垂直分区算法等。本文提出一种新的针对RDF数据的属性选择算法,不仅可以根据查询动态选择属性表结构,达到为应用定制存储策略的效果,还针对RDF数据查询引入连接操作多的问题,优化了属性选择算法,尽量减少在表中的连接。 在属性选择算法研究基础上,本文设计了可以在系统的运行过程中动态调整属性表结构的方法。由于属性表的创建和修改开销很大,现有的方法主要使用静态的属性表生成方法,不考虑属性表结构调整对系统性能造成的影响,这样的算法需要在系统启动前或者停机时运行。本文提出了一种判断系统负载的算法,该算法采用类似PID控制器的思想,可以根据各时间段内查询和响应的情况定性地给出系统是否空闲。并且本文设计了一种属性表的增量调整算法,可以在属性级别给出将旧表结构调整为新表结构需要进行的操作,并在每个属性调整前检查系统负载,只在空闲时进行调整,以将属性表动态调整的影响降到最低。 最后,本文在现有的开源语义网工具Jena中增加了属性表存储的功能,通过修改其中的查询处理模块,可以将查询中合适的数据访问重定向到属性表上进行。为了考察在真实应用场景下属性表存储的性能,本文还在SP2Bench SPARQL性能测试工具中增加了模拟用户数变化的功能。结合改进的Jena与SP2Bench的实验表明,本文提出的属性表属性选择算法和调整时机选择算法可以显著地提高系统的性能。
[Abstract]:The semantic web is an extension of the current web, by adding semantic content in a web page, which the computer can understand and process the information.RDF is a semantic network knowledge representation model used in RDF, with the development of the semantic web is becoming more and more widely used. With the increasing amount of RDF data, how to efficiently the storage of a large number of RDF data has become a problem. This paper from the attribute table storage method of RDF data based on RDF data attribute selection algorithm, attribute table dynamic adjustment algorithm and its related technology.
Studies have shown that different RDF data sets and queries often require different storage schemes, existing RDF storage method have advantages and disadvantages in different application scenarios. The attribute table storage method because it can according to the different custom attribute dynamic query table structure, and therefore favored. Attribute table storage specifies an attribute selection algorithm to determine each attribute in the attribute table, the current mainstream attribute selection algorithm mostly directly applied to similar problems in other areas of the solution, such as association rules mining algorithm in distributed database vertical partitioning algorithm. This paper proposes a new attribute selection algorithm for RDF data, not only can query according to the dynamic selection the attribute table structure, reach for the application of custom storage strategy effect, but also for the RDF data query into the connection operation many problems, optimize the attribute selection algorithm Try to reduce the connection in the table as far as possible.
On the basis of property selection algorithm, this paper designs can be in the process of running the system to dynamically adjust the structure of the table. The attribute table creation and modification overhead, the existing methods mainly use the static attribute table generation method, without considering the attribute table structure adjustment impact on system performance, such as the algorithm needs before the system starts or stops running. This paper proposes a algorithm of load judgment system, the algorithm adopts PID controller similar ideas, according to each period of time, the query and response system is given to whether free. And this paper proposes an incremental algorithm for attribute table can be adjusted. The old table will be given at the attribute level adjustment for the new table structure need operation, and adjust the load before the check system in each attribute, only be adjusted when idle, to The impact of the dynamic adjustment of the attribute table is reduced to a minimum.
Finally, this paper adds the attribute table storage function in the existing open source semantic web tools in Jena, the query processing module to modify the query in data access can be appropriate to redirect the property tables. In order to investigate the performance in real application scenarios attribute table storage, based on the SP2Bench SPARQL performance testing tools. Increase of user number simulation function. The combination of Jena and SP2Bench show that the improved experiment, the proposed attribute table attribute selection algorithm and adjusting timing algorithm can significantly improve the performance of the system.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP273
【相似文献】
相关期刊论文 前10条
1 宋庆美,周明刚;基于XML的三个常用元数据描述工具的评价与比较[J];情报科学;2003年06期
2 梅晓勇,肖政宏;基于XML的排课系统研究与实现[J];湖南城建高等专科学校学报;2003年03期
3 董爱兵,王小平,曹立明;基于FIPA ACL和RDF的Agent通信语言[J];计算机应用研究;2005年07期
4 任磊;谭跃生;;基于RDF元数据的网格资源统一描述方法[J];内蒙古科技大学学报;2009年02期
5 任瑞娟;XML对数字图书馆的影响[J];大学图书馆学报;2002年06期
6 张惠文;基于XML的元数据架构[J];情报科学;2002年10期
7 张惠文;基于XML的元数据架构[J];现代情报;2002年07期
8 李晓红,侯敏;网络环境下元数据格式比较研究[J];图书馆学刊;2003年05期
9 罗三定,廖程锋;一种新的搜索引擎探讨[J];情报学报;2004年04期
10 周智昊;;资源描述框架的形式化表示问题研究[J];华中农业大学学报(社会科学版);2007年04期
相关会议论文 前10条
1 李勋龙;郭瑞强;丁祥武;乐嘉锦;;基于RDF模式的存储方法研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 华雯;王琰;陈跃国;陈晋川;杜小勇;;一个基于演化聚类的RDF数据管理系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 陶导;钱卫宁;魏芳;周傲英;;基于关系数据库的RDF数据存储[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 吴刚;杨梦冬;;RDF数据的并行处理及性能评价[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 周斌;雷建国;;一项新型垃圾衍生燃料(RDF)制备工艺系统[A];2010中国环境科学学会学术年会论文集(第四卷)[C];2010年
6 黄新艳;姚文琳;徐建良;;基于汉英双语语料库的汉英Ontology的建立与管理[A];第七届青年学术会议论文集[C];2005年
7 石翌轶;;基于前向链策略的RDF闭包生成技术研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 王伯春;刘宝林;李代禧;余德洋;;不同条件下水玻璃化过程的模拟[A];第六届全国低温生物医学及器械学术大会论文集[C];2009年
9 徐慧;刘会芬;肖德宝;熊磊;徐艳;;面向语义网的智能信息检索研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
10 贾永生;齐中华;王俊杰;;浅谈AutoCAD与Arc/Info数据属性信息互转[A];2001年东北三省测绘学术与信息交流会论文集[C];2001年
相关重要报纸文章 前10条
1 ;惠普发布新一代数据存储系统[N];人民邮电;2004年
2 ;存储保平安[N];计算机世界;2002年
3 ;浪潮存储举办高端存储方案巡展[N];人民邮电;2006年
4 建研院;如何绘制绿篱线[N];中国花卉报;2008年
5 英小勇;“数据金库”的坚实地基[N];计算机世界;2002年
6 本报驻英国记者 刘海英;未来的网络知你心[N];科技日报;2011年
7 本报记者 钱炜;奥运助推我网络存储发展[N];科技日报;2005年
8 江苏宁沪高速公路股份有限公司 杨庆 周远航;建立公路路面信息数据库[N];计算机世界;2006年
9 周晨;高校数字图书馆青睐IP SAN[N];科技日报;2007年
10 周青邋编译;无重复备份是ILM成功的关键[N];计算机世界;2007年
相关博士学位论文 前10条
1 谢铭;关联数据和知识表示的自动语义标注技术[D];武汉大学;2012年
2 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
3 施冬材;基于对等网络的语义发布/订阅系统的关键技术研究[D];浙江大学;2007年
4 郭晓君;关联课程数据组织及知识管理研究[D];武汉大学;2012年
5 黄庚保;区域质量形势评价及预测技术研究[D];重庆大学;2009年
6 赵顶位;中小学生几何类比推理能力诊断评价中的理论与技术研究[D];江西师范大学;2011年
7 陈海霞;计算机数据存储系统中读写头/盘间超薄气膜动力稳定性研究[D];华中科技大学;2004年
8 姜赢;维度本体及其应用[D];武汉大学;2009年
9 袁晶;大规模轨迹数据的检索、挖掘和应用[D];中国科学技术大学;2012年
10 袁远明;智慧城市信息系统关键技术研究[D];武汉大学;2012年
相关硕士学位论文 前10条
1 陶承恺;基于属性表的RDF数据存储系统研究[D];南京大学;2013年
2 刘谱;高扩展的RDF数据存储系统研究[D];华中科技大学;2012年
3 刘畅;基于大规模模糊RDF数据的推理引擎[D];上海交通大学;2012年
4 杨琴;基于关系数据库的RDF存储与查询的研究与实现[D];电子科技大学;2010年
5 卢珊;UML类图模型到RDF(S)的映射方法的研究[D];东北大学;2010年
6 孙博;RDF数据管理系统研究[D];天津大学;2010年
7 吴德龙;基于存储优化模型的RDF数据查询机制研究[D];华中科技大学;2011年
8 朱敏;基于HBase的RDF数据存储与查询研究[D];南京大学;2013年
9 肖竹军;基于RDF的语义节点间关系路径的检索[D];武汉理工大学;2011年
10 程佳;一种基于Hadoop的RDF数据划分与存储研究[D];南京大学;2013年
,本文编号:1380945
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1380945.html