分布式数据立方计算
本文关键词: 数据立方 分布式 MapReduce TeraSort 出处:《中山大学》2014年硕士论文 论文类型:学位论文
【摘要】:数据立方(Data Cube)是一种有效支持OLAP的多维数据计算模型。它通过预先计算数据表中各属性间所有组合对应的GroupBy结果并将其存储起来,以缩短系统的响应时间从而提高查询效率。随着数据量的急剧增长,分布式计算(如MapReduce)的使用日益广泛,将数据立方计算与分布式结合是必然的趋势。 对于代数度量,如SUM等,简单地采用MapReduce框架即可高效地完成数据立方的计算。但对于整体性度量,如DISTINCT等,若与MapReduce简单地结合,则会出现负载不均衡、中间数据过多等问题。当前最好的分布式数据立方计算算法MR-Cube,通过数据划分、合并计算的方法减缓上述问题。但是该算法对数据划分不够精准,会导致一些不必要的数据划分,加重之后的合并操作。而对于合并计算,该算法仅提出了一些规则,而无简单且有效的合并方法,并且进行合并计算时使用BUC算法亦未充分利用MapReduce框架的特性。 为了更好地解决负载不均衡、中间数据过多的问题,本论文借鉴TeraSort与PipeSort,提出TeraSortPipeSort-Cube算法(以下简称TSP-Cube算法)。TSP-Cube借鉴TeraSort随机抽样的思想,根据数据出现的频率对数据进行划分,不仅可以有效避免不必要的划分,,并且适用于各种分布类型的数据集,从而有效解决负载不均衡的问题。同时TSP-Cube采用能充分利用MapReduce框架特性的PipeSort替代MR-Cube中的BUC进行合并计算,并且针对层次型的数据集,根据其属性特征以及PipeSort的特性,采用更简单有效且均匀的合并计算方案,从而解决中间数据过多的问题。 论文通过实验证明,无论在均匀分布或是倾斜分布下,TSP-Cube在整体性度量函数中都有更好的性能,比已有的分布式算法更通用。此外,实验还对多种算法在代数度量下的性能进行了比较,从而得出不同类型的度量应采用的方法。
[Abstract]:Data Cube). It is a multidimensional data computing model that effectively supports OLAP. It computes and stores the GroupBy results corresponding to all the combinations of attributes in the data table in advance. In order to shorten the response time of the system and improve the query efficiency. With the rapid growth of data, distributed computing (such as MapReduce) is becoming more and more widely used. It is an inevitable trend to combine data cube computing with distributed computing. For algebraic metrics, such as SUM, the calculation of data cubes can be accomplished efficiently by using MapReduce framework, but for integral measures, such as DISTINCT, etc. If combined with MapReduce simply, there will be some problems, such as load imbalance, excessive intermediate data, etc. MR-Cube, the best distributed data cube computing algorithm, is partitioned by data. The method of merging reduces the above problem, but the algorithm is not accurate enough to divide the data, which will lead to some unnecessary data partition, which will aggravate the merging operation. The algorithm only proposes some rules, but has no simple and effective merging method, and the BUC algorithm is not fully utilized in the MapReduce framework. In order to solve the problem of load imbalance and excessive data, this paper draws lessons from TeraSort and PipeSort. TeraSortPipeSort-Cube algorithm (hereinafter referred to as TSP-Cube algorithm). TSP-Cube uses the idea of TeraSort random sampling for reference. Dividing the data according to the frequency of data occurrence can not only effectively avoid unnecessary partitioning, but also be applicable to all kinds of distributed data sets. In order to effectively solve the problem of load imbalance, at the same time, TSP-Cube uses PipeSort, which can make full use of the characteristics of MapReduce framework, instead of BUC in MR-Cube. Combined calculations. According to the attribute characteristics of hierarchical data sets and the characteristics of PipeSort, a more simple, effective and uniform scheme is adopted to solve the problem of excessive data in the middle. The experimental results show that TSP-Cube has better performance in the integral metric function under uniform distribution or tilt distribution, and is more general than the existing distributed algorithm. The performance of many algorithms under algebraic metric is compared, and the methods used in different types of metrics are obtained.
【学位授予单位】:中山大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP338.8
【相似文献】
相关期刊论文 前10条
1 吴敌;准系统 Aopen XC Cube[J];个人电脑;2004年02期
2 周继鹏;k-aryn-cube网络上的完美资源布局[J];暨南大学学报(自然科学与医学版);2004年03期
3 胡孔法;陈];董逸生;;一种基于维层次聚集树的Cube增量更新算法[J];小型微型计算机系统;2005年12期
4 顾颀;胡孔法;陈];唐晓丽;刘海东;;基于维层次的语义Cube存储与增量更新技术研究[J];计算机应用研究;2007年06期
5 ;创意盒子 来自Logitech Cube的新体验[J];电脑迷;2012年05期
6 孙宇;王永娟;;Cube攻击原理与改进[J];计算机科学;2012年S1期
7 ;抓取生活中的美妙色彩——SwatchMate Cube[J];流行色;2014年03期
8 ;主打XC Cube[J];每周电脑报;2003年42期
9 胡孔法,董逸生,徐立臻;基于维层次的压缩Cube[J];东南大学学报(自然科学版);2004年05期
10 胡孔法;陈];李斌;;高维层次聚集Cube并行创建与存储方法[J];东南大学学报(自然科学版);2006年01期
相关会议论文 前6条
1 李骏;陆欢寰;周皓峰;王智慧;汪卫;施伯乐;;基于Contour Cube的有界近似压缩算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 高宏;李建中;;并行Cube存储结构—CMD_Forest[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 孙延凡;陈红;王珊;;FreeCube:有效减小Data Cube体积[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 印莹;赵宇海;张斌;;一种基于Dwarf的快速有效增量更新算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 刘延庆;甘亮;韩伟红;;一种Hybrid数据库上大时间窗口Cube查询的研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 张梦瑶;周宇;顾克骅;杨帅奇;范星河;沈志豪;;Synthesis and Self-Assembly of Cube-Disk Shape Amphiphiles[A];2014年两岸三地高分子液晶态与超分子有序结构学术研讨会摘要集[C];2014年
相关重要报纸文章 前9条
1 ;与Cube说再见[N];中国计算机报;2001年
2 ;AOpen XC cube准系统[N];电脑商报;2004年
3 本报记者 崔谦;XC Cube:变革的黎明[N];计算机世界;2003年
4 ;ICE Cube数据中心采用IBM刀片服务器[N];人民邮电;2008年
5 佚名;期待新型PC: Google Cube[N];计算机世界;2006年
6 TWICE 评测实验室 李丹;PC家电化的使者[N];计算机世界;2004年
7 肖冠丁;家居的味道[N];中国计算机报;2004年
8 内蒙古 王f ;PC还可以更小的[N];电脑报;2004年
9 本报记者 李治钢;打造X时代PC[N];计算机世界;2004年
相关博士学位论文 前2条
1 肖灿文;基于k-ary n-cube网络的高效通信[D];国防科学技术大学;2005年
2 刘杨;事件相关电位脑—机接口的最优设计[D];国防科学技术大学;2010年
相关硕士学位论文 前9条
1 周迎辉;基于树形结构的XML Cube研究[D];中国科学院大学(工程管理与信息技术学院);2013年
2 顾颀;OLAP系统中Cube并行与分布式处理技术的研究[D];扬州大学;2007年
3 陈琳;基于MapReduce的Data Cube相关技术的研究[D];湖南大学;2013年
4 张延鹏;Data Cube中基于维层次的OLAP算法研究[D];燕山大学;2010年
5 杜红红;祖冲之算法分析和Cube密码分析方法研究[D];山东师范大学;2013年
6 张琳;Cube软件交通规划建模特点研究[D];长安大学;2012年
7 王新宝;Quotient Cube技术研究[D];山东大学;2009年
8 任凤;P2P环境下Data Cube的更新与查询研究[D];长沙理工大学;2011年
9 胡本琼;几类网络的结构及相关参数研究[D];电子科技大学;2005年
本文编号:1474559
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1474559.html