基于Spark的数据混合计算平台的研究与实现
发布时间:2023-10-08 20:18
随着计算机技术的高速发展,传统行业逐渐向数字化企业转型,企业数据资源总量逐年呈增长趋势。数据的价值不仅存在其表面,还可以通过处理和分析技术创造出新价值。国家卫健委科研所的多个国家级信息系统产生的数据量大且种类多,因此需要一个大数据混合计算平台,它既能支持多种类型的数据源,又能提供全面的一站式数据计算服务满足医疗科研的各种需求。目前工业界的商业大数据平台的使用费用昂贵且部署维护困难,而且数据保密性较高的国家级企业使用商业软件会产生诸多顾虑。在平台内使用的数据计算技术中,数据连接多用于数据合并、多表联合分析等操作,但是数据倾斜影响计算单元负债均衡一直是阻碍其性能提升的研究瓶颈;卫健委医疗科研的不同业务场景需要不同类型的查询技术方案来满足,这给使用人员带了众多工具复杂的学习门槛,而且每次查询都需要人工判断最合适的引擎。为解决这些缺点和问题,本课题对大数据计算平台及其内部计算技术进行深入研究,本文的主要研究内容如下:1)通过深入研究大规模数据连接过程及其性能影响因素,设计并实现了一种基于Spark的数据连接优化策略,它能高效的处理大规模数据,同时支持等值连接和θ连接,而且对于倾斜严重的数据有很...
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 数据计算平台的研究现状
1.2.2 数据连接技术研究现状
1.2.3 大规模数据查询技术研究现状
1.3 主要研究内容
1.4 硕士期间主要工作
1.5 论文组织结构
第二章 相关技术及理论研究
2.1 分布式计算框架Spark
2.1.1 Spark及其生态环境
2.1.2 Spark数据计算单元
2.2 数据连接模型结构
2.2.1 向量型结构
2.2.2 矩阵型结构
2.3 数据连接分配算法
2.3.1 基于哈希的分配的算法
2.3.2 基于范围的分配算法
2.3.3 随机分配算法
2.3.4 多维区间分配算法
2.4 数据查询引擎架构研究
2.4.1 Apache Kylin
2.4.2 Spark SQL
第三章 数据连接策略的优化与实现
3.1 数据连接流程规范
3.2 准备阶段的优化方案
3.2.1 数据连接矩阵过滤
3.2.2 候选单元格分裂策略
3.3 数据分配算法的优化与实现
3.3.1 数据分配影响因素
3.3.2 数据分配算法
3.3.3 算法评估
3.4 数据连接方案的Spark任务化
3.5 实验与分析
3.5.1 实验环境
3.5.2 实验数据
3.5.3 实验结果与分析
第四章 混合查询引擎的设计与实现
4.1 查询引擎整体架构
4.2 统一的查询解析方案
4.3 逻辑语法树路由策略
4.4 查询性能实验与分析
4.4.1 实验环境与实验数据
4.4.2 实验结果与分析
第五章 基于Spark的数据混合计算平台的设计与实现
5.1 需求分析
5.1.1 平台业务需求分析
5.1.2 平台功能需求分析
5.2 平台架构设计
5.2.1 功能结构设计
5.2.2 技术架构设计
5.2.3 整体架构设计
5.3 数据库设计
5.4 平台功能模块的实现
5.4.1 数据管理模块
5.4.2 数据处理模块
5.4.3 数据工厂模块
5.4.4 数据查询模块
5.5 平台测试与评估
5.5.1 页面展示
5.5.2 平台测试
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3852719
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 数据计算平台的研究现状
1.2.2 数据连接技术研究现状
1.2.3 大规模数据查询技术研究现状
1.3 主要研究内容
1.4 硕士期间主要工作
1.5 论文组织结构
第二章 相关技术及理论研究
2.1 分布式计算框架Spark
2.1.1 Spark及其生态环境
2.1.2 Spark数据计算单元
2.2 数据连接模型结构
2.2.1 向量型结构
2.2.2 矩阵型结构
2.3 数据连接分配算法
2.3.1 基于哈希的分配的算法
2.3.2 基于范围的分配算法
2.3.3 随机分配算法
2.3.4 多维区间分配算法
2.4 数据查询引擎架构研究
2.4.1 Apache Kylin
2.4.2 Spark SQL
第三章 数据连接策略的优化与实现
3.1 数据连接流程规范
3.2 准备阶段的优化方案
3.2.1 数据连接矩阵过滤
3.2.2 候选单元格分裂策略
3.3 数据分配算法的优化与实现
3.3.1 数据分配影响因素
3.3.2 数据分配算法
3.3.3 算法评估
3.4 数据连接方案的Spark任务化
3.5 实验与分析
3.5.1 实验环境
3.5.2 实验数据
3.5.3 实验结果与分析
第四章 混合查询引擎的设计与实现
4.1 查询引擎整体架构
4.2 统一的查询解析方案
4.3 逻辑语法树路由策略
4.4 查询性能实验与分析
4.4.1 实验环境与实验数据
4.4.2 实验结果与分析
第五章 基于Spark的数据混合计算平台的设计与实现
5.1 需求分析
5.1.1 平台业务需求分析
5.1.2 平台功能需求分析
5.2 平台架构设计
5.2.1 功能结构设计
5.2.2 技术架构设计
5.2.3 整体架构设计
5.3 数据库设计
5.4 平台功能模块的实现
5.4.1 数据管理模块
5.4.2 数据处理模块
5.4.3 数据工厂模块
5.4.4 数据查询模块
5.5 平台测试与评估
5.5.1 页面展示
5.5.2 平台测试
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3852719
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3852719.html