基于关键列分组排序的列存储结构
本文关键词:基于关键列分组排序的列存储结构
【摘要】:磁盘作为海量数据的主要存储介质,具有容量大、成本低的优点,但是磁盘IO带宽远远落后于数据增长速度,日益成为大数据管理系统的性能瓶颈。因此,优化存储结构、提高读写效率是大数据时代管理系统面临的重要挑战。提出了一种基于关键列分组排序的混合列存储结构KCGS-Store,根据关键列分组将关系表划分为存储池,确保池内所有记录在关键列上的取值或取值范围相同,然后逐列进行池合并。合并后的关键列,以池为单位有序排列,执行条件查询时能够有效过滤无关列值,减少数据读取量,提升查询性能。同时利用池号索引,以少量时间空间代价完成记录重组。实验数据表明,与ORCFile、Parquet存储结构相比,KCGS-STORE在存储空间、数据加载、SQL查询等方面都有不同程度的优化。
【作者单位】: 清华大学计算机科学与技术系;
【基金】:国家自然科学基金(61373025,61303002)
【分类号】:TP311.13;TP333
【正文快照】: 1引言大数据时代,符合关系模型的结构化数据也在不断增长,达到PB级甚至更大规模。如此庞大的数据集很难全部加载到内存进行处理,建立索引、倒排表等辅助查询结构的成本也异常昂贵。根据Jacobs[1]的测试结果,8块15 000RPM SAS硬盘组成RAID5,顺序读速度为212MB/s,读取10TB关系表
【相似文献】
中国期刊全文数据库 前10条
1 寇斌;图在计算机中的存储结构[J];信阳农业高等专科学校学报;2002年01期
2 尹叶青;三叉树存储结构分析比较[J];广西民族学院学报(自然科学版);2003年02期
3 周海岩;三叉树的一种新存储结构[J];太原理工大学学报;1999年01期
4 黄橡丽,王威,王兵;树的一种新存储结构[J];天津纺织工学院学报;1997年04期
5 范年柏,蒋盛益;一种树的存储结构[J];湖南大学学报(自然科学版);2000年01期
6 姜文志;柳玉;程绍成;;存储结构的对象仿真及其应用[J];微计算机信息;2006年34期
7 果建民;;存储结构对比分析及选型建议[J];广播电视信息;2010年03期
8 王海文;罗明山;;一种改进的图存储结构的实现及性能分析[J];大众科技;2012年05期
9 宋志平,李应红,屈裕安;大型有向图的三叉链表式存储结构[J];计算机工程与应用;2002年21期
10 毛国君,杨涤非;一种三叉树的存储结构及其基本操作的实现[J];计算机研究与发展;1994年05期
中国重要会议论文全文数据库 前3条
1 谢鹏;黄立波;钱程;王志英;;通用CPU存储结构的流处理扩展设计[A];第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集[C];2012年
2 谢剑薇;刘涛;;一种基于容器存储结构的空间栅格数据管理方法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(上册)[C];2013年
3 李晓光;乔文;宋宝燕;于戈;任永功;;一种高效的基于图的MLCA求解方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前1条
1 陈智罡;栈的复习要点[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前1条
1 谢应科;SAR高分辨率实时成像系统存储结构研究[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前5条
1 傅立国;面向分布存储结构的通信生成及代价评估技术研究[D];解放军信息工程大学;2014年
2 许诺;数据分级存储结构与算法研究[D];昆明理工大学;2010年
3 王玉;多核处理器下三维片上存储结构研究[D];国防科学技术大学;2011年
4 王炯;SAN存储结构在网管系统中的应用研究[D];重庆大学;2004年
5 马学聪;基于闪存的浓缩数据立方存储研究[D];华中科技大学;2011年
,本文编号:1250629
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1250629.html