大数据存储结构及查询优化研究
本文关键词:大数据存储结构及查询优化研究 出处:《河北工程大学》2014年硕士论文 论文类型:学位论文
更多相关文章: 大数据 MapReduce 行列存储 查询优化 分布式
【摘要】:大数据不仅需要海量存储的系统,而且需要高速的数据加载、快速的查询处理、存储空间的高利用率以及适应动态高负载。由于传统关系型数据库在管理大数据时遇到各种困难和阻碍,新型分布式系统应运而生。但在大数据存储和查询仍有不足之处,本文从数据存储结构和MapReduce作业相关性两个方面对分布式系统下大数据存储结构及查询优化分析研究。 在分布式系统中,数据存储结构直接影响大数据的存储效率和处理性能。行式存储结构下,数据从本地读取,加载速度快,但压缩效率低且加载了多余数据;列式存储结构下,数据压缩效率高,但数据跨节点访问增加了网络传输消耗。针对行式存储结构和列式存储结构的特点,提出一种以行列结合的存储方式,对数据存储结构进行改进。通过理论比较分析,行列结合存储在数据加载速度上略低于行式存储;在数据压缩效率上,比行式存储和列式存储的效率都高。行列结合的存储结构不仅避免行式存储的额外磁盘I/O开销,同时也减少了列式存储不必要的网络传输,,极大地提高分布式系统对大数据存储效率及处理性能。 现有翻译方式在复杂SQL查询时存在的低性能问题,其原因是忽略了MapReduce作业间的相关性,产生了大量冗余操作,消耗不必要的资源,从而急剧降低了查询性能。本文从输入相关性,数据转换相关性,作业流相关性三个方面对翻译结果进行优化改进,并给出优化条件和优化规则,合并冗余的MapReduce作业以减少不必要的资源消耗,从而提高大数据查询速度。
[Abstract]:Big data need not only mass storage system, but also high speed data loading, fast query processing, high utilization of storage space and dynamic high load. Since the traditional relational database has encountered various difficulties and obstacles in managing large data, the new distributed system emerges as the times require. But there are still some shortcomings in big data storage and query. In this paper, we analyze the storage structure and query optimization of distributed data from two aspects: data storage structure and MapReduce job correlation.
【学位授予单位】:河北工程大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP333
【相似文献】
相关期刊论文 前10条
1 张权;张志远;王燕;张涛;;海量气象水文数据存储结构的研究与实现[J];气象水文海洋仪器;2010年03期
2 赵尹琛;马国华;马传龙;王婷娟;;基于云计算的安全数据存储结构的研究[J];电脑知识与技术;2013年19期
3 牛铁龙;;浅析新闻类非线性编辑网络的主体——数据存储结构[J];中国有线电视;2007年14期
4 姚屏;姚宏;;机械图形的XML数据存储结构设计[J];广东技术师范学院学报;2008年06期
5 廖丽琼;白俊松;罗德安;;基于八叉树及KD树的混合型点云数据存储结构[J];计算机系统应用;2012年03期
6 李永奎,李宝筏,胡艳清;信号采集与分析计算机系统中多样本数据存储结构的设计[J];沈阳农业大学学报;2002年02期
7 陈卫卫;王艳;;基于NoSQL数据库的通用数据存储结构的设计方案[J];价值工程;2012年26期
8 王守宁,关丰富;对书目元数据的探讨[J];图书馆学研究;2004年01期
9 张慧玲;宁立;孟金涛;魏彦杰;冯圣中;;大规模图处理研究[J];网络新媒体技术;2014年01期
10 刘利;;基于NAS和SAN技术的校园网数据存储结构策略[J];阜阳师范学院学报(自然科学版);2011年02期
相关会议论文 前2条
1 李永奎;马成林;;信号计算机检测与处理系统数据存储结构的设计[A];第三届全国信息获取与处理学术会议论文集[C];2005年
2 邓志勇;;机动车合格证系统业务分析与关键数据结构设计[A];创新驱动,加快战略性新兴产业发展——吉林省第七届科学技术学术年会论文集(上)[C];2012年
相关硕士学位论文 前3条
1 周凯东;大数据存储结构及查询优化研究[D];河北工程大学;2014年
2 刘其洪;LED屏显控制系统设计与数据存储结构研究[D];湖南师范大学;2010年
3 宋仁才;基于SaaS架构的可定制模型的研究[D];吉林大学;2012年
本文编号:1345884
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1345884.html