当前位置:主页 > 科技论文 > 软件论文 >

Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统

发布时间:2018-08-05 18:21
【摘要】:随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对大数据环境下的语义数据的存储与查询技术提出了新的挑战.传统的基于关系型数据库的语义数据与查询系统已难以满足大规模语义数据的存储与查询需求.该文针对大规模RDF数据的存储与查询问题,以OpenRDF Sesame框架为基础,采用分布式分层式存储架构,提出并实现了属性表存储结构来进行语义数据的存储.在此基础上,针对布尔矩阵分解算法在对大规模语义数据构造属性表较慢的问题,基于Spark分布式计算框架提出并实现了并行化频繁项集挖掘算法求解大规模矩阵分解,以加速属性表的构造过程.并且,在查询层增加了基于哈希转换等查询优化.最后,基于该文所提出的索引结构和优化方法设计实现了原型系统Goldfish,并在大规模合成和真实数据集上进行了实验对比.结果表明,Goldfish原型系统比Rainbow系统查询性能平均提升约6倍,比Jena-HBase查询性能平均提升约500倍,比基于MapReduce的RDF查询系统SHARD性能平均提升约1200倍.
[Abstract]:With the rapid development of Internet applications and the development of semantic Web technology, semantic data show an explosive growth trend. On the one hand, the efficient storage and query of semantic data is an important foundation of semantic web applications, more and more semantic applications can rely on it to provide better services; on the other hand, the explosive growth of semantic data, This paper presents a new challenge to the storage and query of semantic data in big data environment. The traditional semantic data and query system based on relational database can not meet the requirement of large-scale semantic data storage and query. Aiming at the problem of storing and querying large scale RDF data, based on the OpenRDF Sesame framework, this paper proposes and implements the attribute sheet storage structure to store semantic data by using the distributed hierarchical storage architecture. On this basis, aiming at the problem that Boolean matrix decomposition algorithm is slow to construct attribute tables for large-scale semantic data, a parallel frequent itemset mining algorithm based on Spark distributed computing framework is proposed and implemented to solve large-scale matrix decomposition. To accelerate the construction of a property sheet. Moreover, query optimization based on hash conversion is added in the query layer. Finally, based on the index structure and optimization method proposed in this paper, the prototype system Goldfish is designed and implemented, and the experimental results are compared on large-scale composite and real data sets. The results show that the query performance of Goldfish prototype system is about 6 times higher than that of Rainbow system, 500 times higher than that of Jena-HBase query system, and 1200 times higher than that of RDF query system based on MapReduce.
【作者单位】: 南京大学计算机软件新技术国家重点实验室;江苏省软件新技术与产业化协同创新中心;
【基金】:国家自然科学基金专项基金(61223003);国家自然科学基金(61370019) 江苏省科技支撑计划项目(BE2014131)资助~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 史加荣;郑秀云;周水生;;矩阵补全算法研究进展[J];计算机科学;2014年04期

2 李聪;骆志刚;;用于鲁棒协同推荐的元信息增强变分贝叶斯矩阵分解模型[J];自动化学报;2011年09期

3 袁运祥;基于矩阵分解的子结构法求解介绍[J];计算机应用通讯;1981年00期

4 张海建;;分布式矩阵分解算法在推荐系统中的研究与应用[J];科技通报;2013年12期

5 王锋;赵志文;牟盛;;整数提升小波多相矩阵分解系数的快速提取算法[J];中国图象图形学报;2012年03期

6 段华杰;;考虑时间效应的矩阵分解技术在推荐系统中的应用[J];微型电脑应用;2013年03期

7 王海雷;牟雁超;俞学宁;;基于协同矩阵分解的社会化标签系统的资源推荐[J];计算机应用研究;2013年06期

8 ;违章记分查询系统[J];现代交通管理;2001年06期

9 任干生;适用于油田双普信息的查询系统[J];钻采工艺;2001年02期

10 柯明通;银行业务数据综合查询系统的设计[J];中国金融电脑;2002年09期

相关会议论文 前10条

1 高阳;刘超男;;基于B/S模式的领导查询系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年

2 周清久;罗雅蓉;;城市交通信息计算机查阅查询系统介绍[A];四川省通信学会一九九二年学术年会论文集[C];1992年

3 张欣;王铎;;一种智能手机位置监控查询系统的设计与实现[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年

4 阳爱民;孙星明;李长云;;可定题的网络信息自动发现和查询系统的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

5 朱莉;赵铁军;;基于关键词识别的股票查询系统的实现[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年

6 蒋轶玮;宋泽海;;网上药品招标查询系统的安全策略[A];全国计算机网络应用年会论文集(2001)[C];2001年

7 张向东;俞铁城;李忠香;;通用树状结构的实时语音查询系统[A];第三届全国人机语音通讯学术会议论文集[C];1994年

8 林定移;;以形成性评价理论为基础的网上累积分查询系统[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年

9 鲁力;莫夏丽;肖德强;郭承湘;曾高峰;李珲;李习艺;;中医食疗与药膳查询系统的建立与应用[A];中国营养学会第十次全国营养学术会议暨第七届会员代表大会论文摘要汇编[C];2008年

10 耿少辉;;基于网络的备件查询系统的开发[A];中国烟草学会2004年学术年会论文集[C];2004年

相关重要报纸文章 前9条

1 哈琳琳;新疆开通车辆缴费短信查询系统[N];中国交通报;2007年

2 蒋睿;沪猪肉追溯查询系统菜场遇冷 居民认为其不实用[N];中国畜牧兽医报;2009年

3 郝靖瑞;兰州海龙产品技术参数查询系统运行平稳[N];中国冶金报;2004年

4 广东 吴大副;VFP查询系统实现技巧[N];电脑报;2002年

5 阎建立;鼠标帮您填志愿[N];中国消费者报;2001年

6 顾领;投稿管理与稿件状态查询系统的开发及应用[N];中国社会科学院院报;2008年

7 驻新疆首席记者  哈琳琳 通讯员 阿力亚;新疆征费:去年实现联网 今年移动稽查[N];中国交通报;2007年

8 南京市北京西路76号(210013)南京工程学院仿真部 施建强;用VFP 6.0设计查询系统的技巧[N];计算机世界;2001年

9 本报记者 徐昊;医疗的数字化重塑[N];计算机世界;2013年

相关博士学位论文 前6条

1 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年

2 王啸;基于生成模型和矩阵分解的社区发现算法研究[D];天津大学;2015年

3 王科强;基于矩阵分解的个性化推荐系统[D];华东师范大学;2017年

4 李英明;矩阵分解在数据挖掘中的应用[D];浙江大学;2014年

5 佟强;数据库支持的RDF(S)构建与存储方法研究[D];东北大学;2015年

6 陈根浪;基于社交媒体的推荐技术若干问题研究[D];浙江大学;2012年

相关硕士学位论文 前10条

1 秦晓晖;个性化微博推荐方法研究[D];华南理工大学;2015年

2 刘凤林;基于矩阵分解的协同过滤推荐算法研究[D];南京理工大学;2015年

3 李源鑫;基于提升的信任融合矩阵分解推荐算法[D];福建师范大学;2015年

4 陈洪涛;基于矩阵分解的常规与长尾捆绑推荐的博弈研究[D];福建师范大学;2015年

5 张济龙;基于概率矩阵分解的推荐算法研究[D];燕山大学;2015年

6 邓志豪;基于物品相似度和主题回归的矩阵分解推荐算法[D];浙江大学;2015年

7 余露;利用矩阵分解算法建模数据稀疏环境下用户协同行为[D];杭州师范大学;2015年

8 倪泽明;混合用户行为建模的概率矩阵分解推荐算法[D];浙江大学;2015年

9 吴世伟;社会网络中的链接分析[D];复旦大学;2014年

10 孙伟彬;基于高维显性特征的矩阵分解推荐[D];大连理工大学;2015年



本文编号:2166608

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2166608.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9b938***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com