面向时间窗口数据分析的Spark缓存关键技术研究
发布时间:2023-05-06 16:28
Spark是大数据内存计算系统的典型代表,通过基于内存的数据缓存加速迭代型、交互式等大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据应用,其特征在于依据数据产生的时序,对海量数据集基于时间窗口依次进行局部分析处理,并将局部处理结果进行全局聚合,形成最终的分析结果。本文针对该类应用的数据访问模式,开展Spark系统数据缓存技术研究,通过数据缓存编程接口、时间窗口数据预取机制以及局部结果缓存放置策略的设计与实现,提高Spark系统中基于时间窗口的数据分析应用数据读取效率,进而加速该类应用的运行。本文的主要贡献如下:1)提出了面向时间窗口数据分析应用的RDD动态更新机制并扩展编程接口。该机制根据时间窗口数据分析应用的数据处理时序特征,通过修改RDD生成机制,实现RDD数据分时、动态更新,确保当前时间窗口数据缓存命中;同时提供相应的扩展编程接口,支持用户表达时间窗口数据分时处理需求,降低了应用的开发难度。2)提出了基于流水线的缓存RDD数据预取机制。该机制在预评估时间窗口数据处理产生的结果数据膨胀规模的基础上,设计缓存RDD数据预取时机及预取规模,同时在综合考虑数据本地化处理以及任务...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题背景和研究意义
1.1.1 时间窗口数据分析
1.1.2 Spark内存计算系统
1.1.3 面向时间窗口数据分析的Spark缓存技术研究意义
1.2 国内外研究现状
1.3 本文的主要贡献
1.4 本文的组织结构
1.5 本章小结
第2章 相关工作
2.1 Spark系统
2.1.1 Spark系统概述
2.1.2 Spark整体架构
2.1.3 Spark作业执行流程
2.1.4 Spark系统内存管理
2.2 Spark中的缓存管理
2.3 其他大数据系统的缓存数据管理
2.3.1 缓存数据预取
2.3.2 缓存数据替换
2.3.3 缓存数据迁移
2.3.4 缓存数据放置
2.4 本章小结
第3章 问题分析与动态RDD的提出
3.1 Spark缓存空间及管理机制
3.2 问题分析
3.3 TW-Spark的总体设计
3.4 编程模型
3.5 RDD动态更新机制
3.6 本章小结
第4章 基于流水线的Spark缓存预取机制
4.1 基于流水线的Spark缓存RDD预取基本思想
4.2 预取时机选取
4.3 预取机制的预取数据规模
4.4 预取机制的数据放置位置选取
4.5 本章小结
第5章 时间窗口局部结果数据迁移策略
5.1 问题描述
5.2 局部结果数据迁移时机及规模选择
5.3 局部结果数据迁移目标节点选择
5.3.1 相关定义
5.3.2 局部结果数据迁移策略的数学模型
5.3.3 基于遗传算法的迁移目标选取
5.3.3.1 遗传算法简介
5.3.3.2 基于遗传算法的局部结果数据迁移策略建模
5.4 局部结果数据迁移策略
5.5 本章小结
第6章 性能测试与分析
6.1 测试环境
6.2 测试负载的选取及试验方法
6.3 性能评价指标
6.4 性能测试结果及分析
6.4.1 时间窗口数据分析应用测试结果与分析
6.4.2 微观性能测试的测试结果与分析
6.5 本章小结
结论
参考文献
攻读硕士学位期间获得的科研成果
致谢
本文编号:3809244
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题背景和研究意义
1.1.1 时间窗口数据分析
1.1.2 Spark内存计算系统
1.1.3 面向时间窗口数据分析的Spark缓存技术研究意义
1.2 国内外研究现状
1.3 本文的主要贡献
1.4 本文的组织结构
1.5 本章小结
第2章 相关工作
2.1 Spark系统
2.1.1 Spark系统概述
2.1.2 Spark整体架构
2.1.3 Spark作业执行流程
2.1.4 Spark系统内存管理
2.2 Spark中的缓存管理
2.3 其他大数据系统的缓存数据管理
2.3.1 缓存数据预取
2.3.2 缓存数据替换
2.3.3 缓存数据迁移
2.3.4 缓存数据放置
2.4 本章小结
第3章 问题分析与动态RDD的提出
3.1 Spark缓存空间及管理机制
3.2 问题分析
3.3 TW-Spark的总体设计
3.4 编程模型
3.5 RDD动态更新机制
3.6 本章小结
第4章 基于流水线的Spark缓存预取机制
4.1 基于流水线的Spark缓存RDD预取基本思想
4.2 预取时机选取
4.3 预取机制的预取数据规模
4.4 预取机制的数据放置位置选取
4.5 本章小结
第5章 时间窗口局部结果数据迁移策略
5.1 问题描述
5.2 局部结果数据迁移时机及规模选择
5.3 局部结果数据迁移目标节点选择
5.3.1 相关定义
5.3.2 局部结果数据迁移策略的数学模型
5.3.3 基于遗传算法的迁移目标选取
5.3.3.1 遗传算法简介
5.3.3.2 基于遗传算法的局部结果数据迁移策略建模
5.4 局部结果数据迁移策略
5.5 本章小结
第6章 性能测试与分析
6.1 测试环境
6.2 测试负载的选取及试验方法
6.3 性能评价指标
6.4 性能测试结果及分析
6.4.1 时间窗口数据分析应用测试结果与分析
6.4.2 微观性能测试的测试结果与分析
6.5 本章小结
结论
参考文献
攻读硕士学位期间获得的科研成果
致谢
本文编号:3809244
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3809244.html