Spark SQL结构化数据处理及性能优化
发布时间:2023-11-27 20:54
近年来Spark内存计算框架快速崛起,数据处理速度得到极大的提高,但是其速度上限却受限于Spark内存规模。当数据量小于或接近内存容量时Spark性能最好,反之则性能较差。因此Spark SQL在处理以4G行业卡数据为代表的通信大数据时暴露出了诸多问题,如读写速度和查询速度缓慢、系统资源分配不均或不足、大表Join效率低等。本文从Spark SQL的数据组织方式、Spark资源管理机制和Join算法三个方面处理结构化数据并进行相关的性能优化。首先提出了改进的数据组织框架以提高Spark SQL的读写和查询速度,其次建立了资源监控模型合理的分配和使用资源,最后基于改进的数据组织框架和监控模型改进了大表Join算法。主要工作如下:(1)本文通过分析和对比Spark SQL和Hbase的数据组织方式,提出了一种改进的数据组织框架。该框架首先改进了Parquet文件格式的读写接口,其次利用Hbase+Phoenix构建了二级索引,大幅提升了4G行业卡数据的读写和查询速度。(2)本文进一步研究了Spark的内存模型和资源使用情况,通过性能监控获取集群底层各项参数,建立了内存监控模型对资源使用情况...
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据组织方式研究现状
1.2.2 Join算法研究现状
1.2.3 Spark资源优化研究现状
1.3 论文主要工作
1.4 论文组织结构
第2章 Spark SQL及 Hbase技术基础
2.1 Spark SQL数据组织框架
2.1.1 Spark SQL查询机制
2.1.2 Spark SQL文件格式
2.1.3 Parquet文件格式
2.2 Hbase数据组织框架
2.2.1 Hbase查询机制
2.2.2 Hbase文件格式
2.2.3 Phoenix映射关系
2.3 Spark资源管理机制
2.3.1 Spark运行机制
2.3.2 Spark内存模型
2.4 Spark Join算法
2.4.1 分布式Join算法分类
2.4.2 BloomFilter算法
2.5 本章小结
第3章 Spark SQL数据组织方式设计
3.1 Spark SQL问题分析
3.1.1 数据读写问题
3.1.2 数据存储问题
3.1.3 存储格式对比分析
3.1.4 Spark SQL与 Hbase整合分析
3.2 4G行业卡数据组织框架设计
3.2.1 业务场景分析
3.2.2 Spark SQL读写接口改进
3.2.3 Spark SQL与 Hbase框架整合
3.3 实验及结果分析
3.3.1 实验环境
3.3.2 实验结果分析
3.4 本章小结
第4章 大表关联算法研究
4.1 Spark SQL大表关联问题分析
4.1.1 Sort Merge Join问题分析
4.1.2 分批Join策略
4.2 内存监控模型设计
4.2.1 性能指标分析
4.2.2 内存监控模型
4.2.3 资源分级及预警
4.3 分批Join算法设计
4.3.1 算法概述
4.3.2 算法详细流程
4.3.3 算法开销分析
4.4 实验及结果分析
4.4.1 实验环境
4.4.2 实验结果分析
4.5 本章小结
第5章 工作总结和展望
5.1 论文工作总结
5.2 工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3868557
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据组织方式研究现状
1.2.2 Join算法研究现状
1.2.3 Spark资源优化研究现状
1.3 论文主要工作
1.4 论文组织结构
第2章 Spark SQL及 Hbase技术基础
2.1 Spark SQL数据组织框架
2.1.1 Spark SQL查询机制
2.1.2 Spark SQL文件格式
2.1.3 Parquet文件格式
2.2 Hbase数据组织框架
2.2.1 Hbase查询机制
2.2.2 Hbase文件格式
2.2.3 Phoenix映射关系
2.3 Spark资源管理机制
2.3.1 Spark运行机制
2.3.2 Spark内存模型
2.4 Spark Join算法
2.4.1 分布式Join算法分类
2.4.2 BloomFilter算法
2.5 本章小结
第3章 Spark SQL数据组织方式设计
3.1 Spark SQL问题分析
3.1.1 数据读写问题
3.1.2 数据存储问题
3.1.3 存储格式对比分析
3.1.4 Spark SQL与 Hbase整合分析
3.2 4G行业卡数据组织框架设计
3.2.1 业务场景分析
3.2.2 Spark SQL读写接口改进
3.2.3 Spark SQL与 Hbase框架整合
3.3 实验及结果分析
3.3.1 实验环境
3.3.2 实验结果分析
3.4 本章小结
第4章 大表关联算法研究
4.1 Spark SQL大表关联问题分析
4.1.1 Sort Merge Join问题分析
4.1.2 分批Join策略
4.2 内存监控模型设计
4.2.1 性能指标分析
4.2.2 内存监控模型
4.2.3 资源分级及预警
4.3 分批Join算法设计
4.3.1 算法概述
4.3.2 算法详细流程
4.3.3 算法开销分析
4.4 实验及结果分析
4.4.1 实验环境
4.4.2 实验结果分析
4.5 本章小结
第5章 工作总结和展望
5.1 论文工作总结
5.2 工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:3868557
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3868557.html