Spark SQL等值连接优化算法研究
发布时间:2023-11-02 18:55
科学技术的发展以及互联网的普及推动着大数据时代的到来,全球每天都在产生海量的数据,数据的计量单位己从Byte、KB、MB发展到了 PB、EB甚至于YB、BB。面对如此众多的数据,大数据分析成为一个研究热点,同时以Hadoop、Spark为首的大数据处理平台应运而生。Spark SQL是Spark中用于处理结构化数据的模块,它提供的表连接操作性能较低,但在大数据的分析中大表等值连接操作又使用频繁,因此,本文针对Spark SQL中的等值连接算法进行了优化。论文针对现有等值连接算法不能适用于不同场景的问题,提出一种基于扩展Partial Bloom Filter的等值连接优化算法EPBF Join算法,该算法的优化主要体现在两个方面:首先,EPBF Join算法对Partial Bloom Filter数据结构进行扩展,使之能够并行计算从而减少数据过滤阶段消耗的时间,提高整体连接性能;其次,EPBF Join算法能够根据数据量的大小自动改变位数组的个数,使之满足数据量未知的场景,从而实现了同时适用于数据量己知和数据量未知两种应用场景。论文针对等值连接操作在数据倾斜情况下性能较低的问题进行重...
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 国内外研究现状
1.3 论文主要内容
1.4 论文组织结构
2 相关技术
2.1 大数据计算框架
2.1.1 主流大数据计算框架
2.1.2 分布式计算框架Spark
2.2 Spark SQL模块
2.3 分布式文件系统
2.4 Bloom Filter
2.5 一致性哈希算法
2.6 本章小结
3 基于扩展Partial Bloom Filter的等值连接优化算法
3.1 问题描述
3.2 扩展Partial Bloom Filter
3.3 EPBF位数组动态生成
3.4 EPBF Join算法流程
3.5 EPBF Join算法代价分析
3.6 实验验证
3.6.1 实验设置
3.6.2 实验设计
3.6.3 EPBF Join算法的对比实验及性能分析
3.7 本章小结
4 基于Space-Code Bloom Filter可预估数据倾斜的等值连接优化算法
4.1 问题描述
4.2 数据过滤策略
4.2.1 Space-Code Bloom Filter
4.2.2 基于SCBF的过滤方法
4.3 数据倾斜程度计算策略
4.4 添加前缀再分区策略
4.4.1 数据倾斜的典型场景
4.4.2 随机添加前缀策略
4.4.3 基于一致性哈希算法的再分区策略
4.5 SCBF-ESD Join算法流程
4.6 SCBF-ESD Join算法代价分析
4.7 实验验证
4.7.1 实验设置及设计
4.7.2 数据倾斜临界值的确定实验及分析
4.7.3 预估数据倾斜的有效性实验及分析
4.7.4 减少数据倾斜的有效性实验及分析
4.7.5 SCBF-ESD Join算法的对比实验及性能分析
4.8 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
本文编号:3859566
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 国内外研究现状
1.3 论文主要内容
1.4 论文组织结构
2 相关技术
2.1 大数据计算框架
2.1.1 主流大数据计算框架
2.1.2 分布式计算框架Spark
2.2 Spark SQL模块
2.3 分布式文件系统
2.4 Bloom Filter
2.5 一致性哈希算法
2.6 本章小结
3 基于扩展Partial Bloom Filter的等值连接优化算法
3.1 问题描述
3.2 扩展Partial Bloom Filter
3.3 EPBF位数组动态生成
3.4 EPBF Join算法流程
3.5 EPBF Join算法代价分析
3.6 实验验证
3.6.1 实验设置
3.6.2 实验设计
3.6.3 EPBF Join算法的对比实验及性能分析
3.7 本章小结
4 基于Space-Code Bloom Filter可预估数据倾斜的等值连接优化算法
4.1 问题描述
4.2 数据过滤策略
4.2.1 Space-Code Bloom Filter
4.2.2 基于SCBF的过滤方法
4.3 数据倾斜程度计算策略
4.4 添加前缀再分区策略
4.4.1 数据倾斜的典型场景
4.4.2 随机添加前缀策略
4.4.3 基于一致性哈希算法的再分区策略
4.5 SCBF-ESD Join算法流程
4.6 SCBF-ESD Join算法代价分析
4.7 实验验证
4.7.1 实验设置及设计
4.7.2 数据倾斜临界值的确定实验及分析
4.7.3 预估数据倾斜的有效性实验及分析
4.7.4 减少数据倾斜的有效性实验及分析
4.7.5 SCBF-ESD Join算法的对比实验及性能分析
4.8 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
本文编号:3859566
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3859566.html