当前位置:主页 > 科技论文 > 计算机论文 >

基于关键列分组排序的列存储结构

发布时间:2017-12-04 10:10

  本文关键词:基于关键列分组排序的列存储结构


  更多相关文章: Hadoop 列存储 组排序 大数据


【摘要】:磁盘作为海量数据的主要存储介质,具有容量大、成本低的优点,但是磁盘IO带宽远远落后于数据增长速度,日益成为大数据管理系统的性能瓶颈。因此,优化存储结构、提高读写效率是大数据时代管理系统面临的重要挑战。提出了一种基于关键列分组排序的混合列存储结构KCGS-Store,根据关键列分组将关系表划分为存储池,确保池内所有记录在关键列上的取值或取值范围相同,然后逐列进行池合并。合并后的关键列,以池为单位有序排列,执行条件查询时能够有效过滤无关列值,减少数据读取量,提升查询性能。同时利用池号索引,以少量时间空间代价完成记录重组。实验数据表明,与ORCFile、Parquet存储结构相比,KCGS-STORE在存储空间、数据加载、SQL查询等方面都有不同程度的优化。
【作者单位】: 清华大学计算机科学与技术系;
【基金】:国家自然科学基金(61373025,61303002)
【分类号】:TP311.13;TP333
【正文快照】: 1引言大数据时代,符合关系模型的结构化数据也在不断增长,达到PB级甚至更大规模。如此庞大的数据集很难全部加载到内存进行处理,建立索引、倒排表等辅助查询结构的成本也异常昂贵。根据Jacobs[1]的测试结果,8块15 000RPM SAS硬盘组成RAID5,顺序读速度为212MB/s,读取10TB关系表

【相似文献】

中国期刊全文数据库 前10条

1 寇斌;图在计算机中的存储结构[J];信阳农业高等专科学校学报;2002年01期

2 尹叶青;三叉树存储结构分析比较[J];广西民族学院学报(自然科学版);2003年02期

3 周海岩;三叉树的一种新存储结构[J];太原理工大学学报;1999年01期

4 黄橡丽,王威,王兵;树的一种新存储结构[J];天津纺织工学院学报;1997年04期

5 范年柏,蒋盛益;一种树的存储结构[J];湖南大学学报(自然科学版);2000年01期

6 姜文志;柳玉;程绍成;;存储结构的对象仿真及其应用[J];微计算机信息;2006年34期

7 果建民;;存储结构对比分析及选型建议[J];广播电视信息;2010年03期

8 王海文;罗明山;;一种改进的图存储结构的实现及性能分析[J];大众科技;2012年05期

9 宋志平,李应红,屈裕安;大型有向图的三叉链表式存储结构[J];计算机工程与应用;2002年21期

10 毛国君,杨涤非;一种三叉树的存储结构及其基本操作的实现[J];计算机研究与发展;1994年05期

中国重要会议论文全文数据库 前3条

1 谢鹏;黄立波;钱程;王志英;;通用CPU存储结构的流处理扩展设计[A];第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集[C];2012年

2 谢剑薇;刘涛;;一种基于容器存储结构的空间栅格数据管理方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(上册)[C];2013年

3 李晓光;乔文;宋宝燕;于戈;任永功;;一种高效的基于图的MLCA求解方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

中国重要报纸全文数据库 前1条

1 陈智罡;栈的复习要点[N];中国电脑教育报;2003年

中国博士学位论文全文数据库 前1条

1 谢应科;SAR高分辨率实时成像系统存储结构研究[D];中国科学院研究生院(计算技术研究所);2000年

中国硕士学位论文全文数据库 前5条

1 傅立国;面向分布存储结构的通信生成及代价评估技术研究[D];解放军信息工程大学;2014年

2 许诺;数据分级存储结构与算法研究[D];昆明理工大学;2010年

3 王玉;多核处理器下三维片上存储结构研究[D];国防科学技术大学;2011年

4 王炯;SAN存储结构在网管系统中的应用研究[D];重庆大学;2004年

5 马学聪;基于闪存的浓缩数据立方存储研究[D];华中科技大学;2011年



本文编号:1250629

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1250629.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户73461***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com