当前位置:主页 > 科技论文 > 计算机论文 >

列存储系统的若干关键技术研究

发布时间:2018-10-21 20:12
【摘要】:当今,许多企事业单位的高管人员,迫切需要高性能的分析型数据库管理系统,用于分析大数据,辅助决策。列存储技术在处理大数据方面,显著优于行存储技术,所以吸引了许多学者的研究。列存储技术的研究取得了一些成果,但是关于列存储系统的存储优化、查询优化和查询执行等关键技术还有待进一步研究。 在列存储系统中,按列存储数据,使得在查询处理时能够只读取查询所需要的列,避免读入无关的列。按列存储的数据具有很好的可压缩性,在查询处理过程中可以直接对压缩数据进行处理。这两点使得列存储系统在查询处理过程中的数据I/O效率比行存储高得多,有利于提高查询处理的速度。另一方面,对按列存储的数据进行查询处理时,需要将分散存储在不同位置的多列数据进行元组重构。元组重构形成了列存储系统中的一个重要性能瓶颈。 本文以国家工信部核高基重大专项课题“数据仓库专用DBMS原型系统研制”(2010ZX01042-001-003-04)和国家自然科学基金项目“数据仓库中行列混合存储引擎的优化模型”(61070031)为依托,以提高列存储系统的查询性能为目标,对影响列存储系统性能的一些关键技术进行了深入研究。本文主要做了以下几个方面的工作: (1)研究列存储系统中数据存储布局对元组重构性能的影响后,提出了一个以列存储为基础,结合组合多列的存储模型。该模型对历史查询使用数据的方式进行分析,分析一个逻辑表中的哪些列经常一起被查询输出,将这些列进行物化,供后续查询使用。对需要物化的多列,首先形成逻辑上的一个投影并进行水平划分,然后对划分的每一块,在块内按列组织并压缩后存储。这样能充分利用列存储的优势,同时也能减少元组重构的开销,为后续查询提供了最优存储。 (2)传统B+树索引是稀疏的,对其搜索的路径较长,对其进行插入和搜索的效率较低,不适合分析型应用。对此,本文提出了一种精简的、适合于列存储的B+树结构——RB+树。RB+树几乎是一棵满的平衡二叉树,一页能容纳更多的索引项,因而能用较矮的RB+树存储大量的索引项。按这种结构树组织数据,搜索数据的路径短,搜索效率高。关于RB+树索引的创建和维护,分别对行号索引和列值索引提出了自底向上的高效创建方法和维护方法。 (3)研究了数据库中的数据压缩技术,包括轻量级的压缩方法、压缩粒度的选择和压缩方法的选择策略。特别对位图压缩技术进行了深入的研究,提出了一种富扩展划分位图索引和一种自适应的划分字对齐压缩方法(APWAH)。富扩展划分位图包含了一些统计信息,为直接使用划分位图进行聚集操作提供了方便。(?)PWAH能根据位向量中0-1分布情况,自适应地选择最合适的0-填充段长和1-填充段长,提高了压缩效率和查询处理效率。同时研究了区级压缩,区级压缩同时具有压缩率高和压缩管理方便的优点。本文提出根据数据的分布情况,自适应地选择区的大小。一个区由若干块构成,每区的块数不一定相同。这样可以根据相邻数据块之间的相似性,灵活地进行区划分,不受区大小的限制,保证区内数据分布特征相似性强,区之间数据分布特征相似性弱,以便对每个区选择更合适的压缩方法。关于压缩方法的选择,建立了一个数据分布特征模型,并根据提出的模型建立了选择压缩方法的决策方案。 (4)研究缓冲区管理技术,提出了一种适应于列存储系统的三级缓冲区管理方案。在全局级,使用两条链分别管理系统的自由缓冲区和所有查询使用的缓冲区,对使用的缓冲区按综合自适应置换策略进行置换。一个缓冲区是否可被置换,不仅考虑正在执行的查询,同时还考虑了一定量的后续查询。在查询级,每个执行的查询都用一条主链管理它使用的缓冲区,一个查询处理中每出现一个并发操作阶段,都从主链中产生一条相应的分支链来管理并发操作阶段使用的缓冲区。在操作阶段级,对每个操作阶段设计了一种灵活且自适应的缓冲区分配策略(MG-x-y-z)和与它的访问模式相适应的置换策略。提出的三级缓冲区管理方案充分考虑了分析型工作负载的特点、数据访问模式特点和可用的缓冲区情况,也考虑了数据预取。 (5)研究列存储系统中的物化技术后,针对现有物化技术的不足,提出了基于带值路径的物化技术(PVM)。PVM在物理执行树中增加了带值路径,并使用传递块来保存执行的中间结果。通过这种方法,避免了查询执行过程中对原始数据的重读。对带值路径中包含的位向量,使用本文提出的APWAH压缩方法进行压缩,减少或避免了因中间结果太大而造成的额外I/O。 本文研究的内容是我们所研制的原型系统中的关键技术。研究的结果对提高系统的总体性能起到了决定性的作用。
[Abstract]:......
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 杨春燕;用SAN构筑现代企业信息存储系统的优势[J];内蒙古电力技术;2002年S1期

2 ;专家观点[J];中国计算机用户;2006年43期

3 ;HDS AMS 2000系列的创新之道[J];通信世界;2009年08期

4 金文新;;大型高校图书馆计算机网络集成系统建设[J];情报科学;2009年04期

5 李静;;浅谈HIS系统对服务器和存储设备的要求及设计方案[J];信息与电脑(理论版);2009年11期

6 刘刚;张海涛;李瑞东;张强;;一种基于模块化设计的NAS集群存储系统[J];微计算机信息;2011年05期

7 于耳;;建立面向应用的存储系统[J];中国教育网络;2011年06期

8 ;数字视频存储系统[J];光学精密工程;1977年06期

9 张明明;;为信息传输设备保驾护航——访EMC公司中国区产品经理马永亨先生[J];上海微型计算机;1998年Z1期

10 赵晨;;EMC Symmetrix优化SAP R/3系统[J];计算机与网络;1998年09期

相关会议论文 前10条

1 赵志刚;;存储系统在企业信息化中的应用[A];2005年安徽通信论文集[C];2006年

2 朱平;朱建涛;高剑刚;蒋金虎;;高性能计算存储关键技术研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年

3 周博;宿绍莹;陈曾平;;基于CPCI总线的宽带雷达数据传输存储系统设计[A];全国第二届信号处理与应用学术会议专刊[C];2008年

4 周功业;周江;陈希;陈进才;;寄生存储原理及实现机制[A];第15届全国信息存储技术学术会议论文集[C];2008年

5 汪黎;章文嵩;杨学军;;Cfslight:一个新型的轻量级对象存储集群文件系统[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年

6 聂明;;构建海量存储系统 提升媒体竞争力[A];中国新闻技术工作者联合会2008年学术年会论文集(下)[C];2008年

7 王克敏;张玺;胡江凯;王毅涛;;NWP资料归档方法及其存储系统的应用[A];中国气象学会2006年年会“中尺度天气动力学、数值模拟和预测”分会场论文集[C];2006年

8 刘湛明;吴柳坚;;数字电视台的建设[A];2007第二届全国广播电视技术论文集2(下)[C];2007年

9 黄晓峰;张杰;;矿井信息中心存储系统设计[A];安全高效矿井机电装备及信息化技术——陕西省煤炭学会学术年会论文集(2011)[C];2011年

10 罗香玉;李传佑;汪芸;;纠删码容错组的布局策略研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

相关重要报纸文章 前10条

1 朗飞;IBM“冰立方”就像搭积木[N];中国计算机报;2006年

2 郭涛;MediaGrid既不是SAN也不是NAS[N];中国计算机报;2007年

3 本报记者  张峰;知己知彼建存储(上)[N];网络世界;2006年

4 森林;NAS资源存储系统[N];中国电脑教育报;2002年

5 Hifn(汉帆)杭州信息技术有限公司 马剑杰;自动精简配置:提升存储利用率有绝招[N];中国计算机报;2009年

6 ;IBM收购存储解决方案公司[N];计算机世界;2007年

7 本报记者 徐恒;面临机遇 中国新型存储业合作求创新[N];中国电子报;2011年

8 李想 徐晋;福州电业局研发个人文件安全存储系统[N];中国电力报;2006年

9 ;HDS推出企业入门级存储系统[N];计算机世界;2005年

10 ;戴尔EMC打造新一代高容量存储系统[N];人民邮电;2004年

相关博士学位论文 前10条

1 丁祥武;列存储系统的若干关键技术研究[D];东华大学;2013年

2 陆承涛;存储系统性能管理问题的研究[D];华中科技大学;2010年

3 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年

4 罗东健;大规模存储系统高可靠性关键技术研究[D];华中科技大学;2011年

5 聂雪军;内容感知存储系统中信息生命周期管理关键技术研究[D];华中科技大学;2010年

6 王玉林;多节点容错存储系统的数据与缓存组织研究[D];电子科技大学;2010年

7 施展;基于本体的存储系统管理研究[D];华中科技大学;2011年

8 姜明华;基于冗余智能存储通道的存储系统关键技术研究[D];华中科技大学;2011年

9 黄继鹏;高速高可靠小型数字视频存储系统的设计与实现[D];中国科学院研究生院(长春光学精密机械与物理研究所);2012年

10 刘科;内容感知存储系统中的信息检索关键技术研究[D];华中科技大学;2012年

相关硕士学位论文 前10条

1 陆正武;面向流媒体应用存储系统的研究与实现[D];华中科技大学;2004年

2 杜睿;基于IP-SAN技术的石化企业数据集中存储系统的设计与实现[D];华东理工大学;2010年

3 金强;基于HBase的RDF存储系统的研究与设计[D];浙江大学;2011年

4 余智敏;数字化图书馆的数据存储技术的研究[D];武汉理工大学;2006年

5 陶博舟;磁盘阵列快照系统的设计与实现[D];华中科技大学;2007年

6 张小艳;基于嵌入式技术的USB存储系统的设计与实现[D];内蒙古大学;2011年

7 蒋亚群;基于DLX体系结构的微处理器核的设计与实现[D];中国人民解放军国防科学技术大学;2002年

8 亓伟;关系数据库存储子系统研究与实现[D];清华大学;2005年

9 宋迎迎;数字馆藏评价指标体系研究[D];郑州大学;2006年

10 袁晓铭;磁盘阵列系统的快照技术研究[D];华中科技大学;2007年



本文编号:2286237

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2286237.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18be8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com