数据仓库分布式列存储技术研究与实现
发布时间:2021-06-06 15:36
随着互联网技术的不断发展和互联网用户的不断增多,互联网的数据近几年呈现爆炸式地增长。互联网数据的急骤增长,使得传统数据库、数据仓库技术面临巨大的挑战,单结点的数据库系统和数据仓库系统往往难以存储和分析海量的数据。而Hadoop则可以通过将廉价的商用计算机组成分布式集群的方式,以极低的成本、极高的扩展性,轻易地解决海量数据存储和分析的难题。这也使得擅长解决大数据而新兴的Hadoop分布式计算平台在两到三年的时间里快速成长、成熟并流行开来。随着数据规模的不断增长,以Hadoop为代表的基于集群的分布式数据处理平台必将成为未来的数据分析和处理的主流。本文分析了分布式系统和数据仓库的基本原理,并对Hadoop原理进行了详细的研究和分析,重点研究了两个核心子项目MapReduce和HDFS的底层的实现机制,并详细分析了基于Hadoop的数据仓库基础架构——Hive的原理、架构及实现。由于Hadoop目前在数据处理时均是以行或行组的形式进行分布式存储,IO瓶颈是影响Hadoop数据处理性能的主要瓶颈,CPU利用率较低,未达到充分利用。同时,列存储技术具有减少查询1O数据量和易于压缩的重要优点。本文...
【文章来源】:昆明理工大学云南省
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 问题与动机
1.3 论文研究的内容
1.4 论文的组织结构
第二章 关键技术及原理分析
2.1 分布式系统
2.2 数据仓库
2.3 HADOOP平台
2.4 HIVE
第三章 MAPREDUCE列存储设计
3.1 分布式列存储的优势
3.2 MAPREDUCE列存储系统整体架构
3.3 MAPREDUCE列存储设计要点
3.4 存储格式设计
3.5 冗余和数据本地化设计
3.6 多线程写入设计
3.7 块内数据压缩
第四章 核心算法设计
4.1 分布式数据块放置算法
4.2 块内数据压缩算法
第五章 性能测试与分析
5.1 分布式列存储格式性能分析
5.2 压缩算法性能分析
第六章 数据仓库应用
6.1 数据仓库应用整体架构
6.2 HIVE列存储应用
6.3 OLAP工具应用
第七章 总结与展望
7.1 工作总结
7.2 进一步研究设想
致谢
参考文献
附录A 攻读学位期间发表的论文目录
本文编号:3214669
【文章来源】:昆明理工大学云南省
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 问题与动机
1.3 论文研究的内容
1.4 论文的组织结构
第二章 关键技术及原理分析
2.1 分布式系统
2.2 数据仓库
2.3 HADOOP平台
2.4 HIVE
第三章 MAPREDUCE列存储设计
3.1 分布式列存储的优势
3.2 MAPREDUCE列存储系统整体架构
3.3 MAPREDUCE列存储设计要点
3.4 存储格式设计
3.5 冗余和数据本地化设计
3.6 多线程写入设计
3.7 块内数据压缩
第四章 核心算法设计
4.1 分布式数据块放置算法
4.2 块内数据压缩算法
第五章 性能测试与分析
5.1 分布式列存储格式性能分析
5.2 压缩算法性能分析
第六章 数据仓库应用
6.1 数据仓库应用整体架构
6.2 HIVE列存储应用
6.3 OLAP工具应用
第七章 总结与展望
7.1 工作总结
7.2 进一步研究设想
致谢
参考文献
附录A 攻读学位期间发表的论文目录
本文编号:3214669
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3214669.html