基于运行时统计数据采集的Spark SQL查询优化研究
发布时间:2021-04-17 11:19
大数据时代,各行各业与互联网的紧密结合产生了海量的业务数据,通过分析这些业务数据可以为公司制定更好的运营策略,从而提升公司的盈利能力。Hadoop MapReduce系统的出现简化了对海量数据的分析,其被大量公司和机构广泛应用于业务数据分析工作。然而Hadoop MapReduce采用磁盘来存储计算的中间结果,因此计算效率较低,而Spark分布式计算引擎采用内存来存储计算的中间结果,显著地提高了数据分析任务的执行速度。为了进一步简化数据分析工作,研究人员在Hadoop MapReduce系统上研发了Hive数据仓库;在Spark之上构建了Spark SQL系统。相对于早期的工具使用代码描述计算任务,这些工具使用SQL描述数据分析任务,使其可以根据查询优化理论进行优化,进一步提升了执行的效率。但是目前Spark SQL的查询优化功能仍然存在以下不足:1)需要操作者显式地通过统计信息收集命令收集统计信息,在缺乏统计信息时无优化,而使用者通常不了解查询优化理论,也不了解如何有效地收集统计信息。2)收集的统计信息不够准确,优化效果不佳。针对以上问题,本文提出了一个在运行时收集统计信息并对查询进...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
Spark工具栈SparkSQL是运行在Spark上的SQL-on-Hadoop工具
窄依赖和宽依赖
划分调度阶段在执行过程时窄依赖的计算不需要父RDD的所有分区都计算完成才可进行计
【参考文献】:
硕士论文
[1]基于SPARK的两表连接基数估计算法研究[D]. 叶圣洁.华中科技大学 2018
[2]Spark SQL查询执行优化技术研究[D]. 万雨桐.东南大学 2018
[3]SPARK SQL系统查询优化的研究与实现[D]. 丁凯泽.北京邮电大学 2017
[4]SQL到SPARK查询优化机制研究[D]. 蔡凯臻.东南大学 2016
[5]连接操作在Spark框架上的实现与优化[D]. 张文虎.国防科学技术大学 2016
[6]基于代价模型的Spark SQL查询优化研究[D]. 刘春雷.电子科技大学 2016
本文编号:3143360
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
Spark工具栈SparkSQL是运行在Spark上的SQL-on-Hadoop工具
窄依赖和宽依赖
划分调度阶段在执行过程时窄依赖的计算不需要父RDD的所有分区都计算完成才可进行计
【参考文献】:
硕士论文
[1]基于SPARK的两表连接基数估计算法研究[D]. 叶圣洁.华中科技大学 2018
[2]Spark SQL查询执行优化技术研究[D]. 万雨桐.东南大学 2018
[3]SPARK SQL系统查询优化的研究与实现[D]. 丁凯泽.北京邮电大学 2017
[4]SQL到SPARK查询优化机制研究[D]. 蔡凯臻.东南大学 2016
[5]连接操作在Spark框架上的实现与优化[D]. 张文虎.国防科学技术大学 2016
[6]基于代价模型的Spark SQL查询优化研究[D]. 刘春雷.电子科技大学 2016
本文编号:3143360
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3143360.html
最近更新
教材专著