Spark SQL等值连接优化算法研究

发布时间：2023-11-02 18:55

　　科学技术的发展以及互联网的普及推动着大数据时代的到来,全球每天都在产生海量的数据,数据的计量单位己从Byte、KB、MB发展到了 PB、EB甚至于YB、BB。面对如此众多的数据,大数据分析成为一个研究热点,同时以Hadoop、Spark为首的大数据处理平台应运而生。Spark SQL是Spark中用于处理结构化数据的模块,它提供的表连接操作性能较低,但在大数据的分析中大表等值连接操作又使用频繁,因此,本文针对Spark SQL中的等值连接算法进行了优化。论文针对现有等值连接算法不能适用于不同场景的问题,提出一种基于扩展Partial Bloom Filter的等值连接优化算法EPBF Join算法,该算法的优化主要体现在两个方面:首先,EPBF Join算法对Partial Bloom Filter数据结构进行扩展,使之能够并行计算从而减少数据过滤阶段消耗的时间,提高整体连接性能;其次,EPBF Join算法能够根据数据量的大小自动改变位数组的个数,使之满足数据量未知的场景,从而实现了同时适用于数据量己知和数据量未知两种应用场景。论文针对等值连接操作在数据倾斜情况下性能较低的问题进行重...

【文章页数】：81 页

【学位级别】：硕士

【文章目录】：
致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景
    1.2 国内外研究现状
    1.3 论文主要内容
    1.4 论文组织结构
2 相关技术
    2.1 大数据计算框架
        2.1.1 主流大数据计算框架
        2.1.2 分布式计算框架Spark
    2.2 Spark SQL模块
    2.3 分布式文件系统
    2.4 Bloom Filter
    2.5 一致性哈希算法
    2.6 本章小结
3 基于扩展Partial Bloom Filter的等值连接优化算法
    3.1 问题描述
    3.2 扩展Partial Bloom Filter
    3.3 EPBF位数组动态生成
    3.4 EPBF Join算法流程
    3.5 EPBF Join算法代价分析
    3.6 实验验证
        3.6.1 实验设置
        3.6.2 实验设计
        3.6.3 EPBF Join算法的对比实验及性能分析
    3.7 本章小结
4 基于Space-Code Bloom Filter可预估数据倾斜的等值连接优化算法
    4.1 问题描述
    4.2 数据过滤策略
        4.2.1 Space-Code Bloom Filter
        4.2.2 基于SCBF的过滤方法
    4.3 数据倾斜程度计算策略
    4.4 添加前缀再分区策略
        4.4.1 数据倾斜的典型场景
        4.4.2 随机添加前缀策略
        4.4.3 基于一致性哈希算法的再分区策略
    4.5 SCBF-ESD Join算法流程
    4.6 SCBF-ESD Join算法代价分析
    4.7 实验验证
        4.7.1 实验设置及设计
        4.7.2 数据倾斜临界值的确定实验及分析
        4.7.3 预估数据倾斜的有效性实验及分析
        4.7.4 减少数据倾斜的有效性实验及分析
        4.7.5 SCBF-ESD Join算法的对比实验及性能分析
    4.8 本章小结
5 总结与展望
    5.1 总结
    5.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

本文编号：3859566

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3859566.html

上一篇：淘弃喵APP及其界面概念设计
下一篇：反腐败监督系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|