分布式流数据处理系统容错问题研究
发布时间:2021-05-07 00:42
随着大规模流数据处理和分析技术的快速发展,近年来分布式流处理系统已被公认为解决大规模数据流问题的有效方法。因其拥有很强的并行处理能力和系统可扩展性,成为广受关注的新型分布式系统。随着分布式系统规模不断扩展,系统故障率攀升,可靠性问题加剧。生产环境的数据处理集群已突破万节点级别例如Google和Facebook等,此规模的分布式系统每天产生数个节点错误。因此,故障容错成为分布式流处理系统中至关重要的问题。分布式流处理系统迫切需要完善的故障容错支撑,主要有三方面原因。第一,流数据one pass的处理模式,导致珍贵的信息将在故障中永久性丢失,造成无法挽回的损失。流处理系统对容错开销和延迟有严格限制。第二,新的弹性流处理系统能满足流处理中无缝适应负载变化的要求,但也引入了容错问题的新挑战。第三,流数据负载不断变化,现有静态容错策略难以适应,引起不必要的运行开销,从而导致较低的节点级处理效率。围绕上述三个方面,本文的具体工作和主要贡献包括:(1)提出一种支持分布式流处理的低开销容错机制以及相关协议。所提出的机制和协议面向分布式流数据处理的实际容错需求,以实时流处理模型为基础,构建检查点异步更新...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:117 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景与意义
1.1.1 分布式流数据处理
1.1.2 系统可靠性问题与容错机制
1.1.3 流数据处理容错技术的挑战
1.2 本文主要内容
1.3 论文组织结构
第2章 相关研究现状
2.1 分布式流数据处理系统
2.1.1 基于流式计算模型
2.1.2 基于批量计算模型
2.2 流处理自动并行化技术
2.3 容错技术
2.3.1 主动式备份
2.3.2 被动式备份
2.4 本章小结
第3章 支持分布式流处理的低开销容错机制
3.1 引言
3.2 相关工作
3.3 通用分布式流处理框架
3.4 系统模型
3.4.1 流数据处理作业
3.4.2 节点运行状态
3.5 低开销容错机制
3.5.1 异步检查点
3.5.2 上游数据备份
3.6 容错协议及算法
3.6.1 上游备份协议
3.6.2 协议开销分析
3.6.3 快速恢复算法
3.7 实验结果与性能分析
3.7.1 系统原型实现
3.7.2 实验设置
3.7.3 容错通讯开销
3.7.4 容错延迟开销
3.7.5 容错内存开销
3.7.6 故障恢复测试
3.8 本章小结
第4章 支持弹性流处理的自适应容错机制
4.1 引言
4.2 相关工作
4.3 弹性流处理下容错问题建模
4.3.1 问题概述
4.3.2 备份调整函数
4.3.3 问题模型假设
4.4 支持弹性流处理的自适应容错机制
4.4.1 弹性数据备份单元
4.4.2 数据依赖关系追踪
4.4.3 在线检查点调整机制
4.5 在线调整容错协议
4.6 实验与结果分析
4.6.1 系统原型实现
4.6.2 实验设置
4.6.3 容错开销测试
4.6.4 故障恢复测试
4.6.5 综合性能比较
4.7 本章总结
第5章 负载感知的最佳检查点间隔策略
5.1 引言
5.2 相关工作
5.3 最优检查点问题建模
5.3.1 系统模型
5.3.2 处理效率
5.3.3 问题定义
5.4 动态最优检查点间隔(DOCI)模型
5.4.1 在线恢复时间预测
5.4.2 最佳检查点时间间隔
5.5 动态OCI调整策略
5.5.1 动态OCI调整算法
5.5.2 缓存对OCI的影响
5.6 实验与结果分析
5.6.1 模拟方法
5.6.2 恒定输入率下的效率测试
5.6.3 工作量波动下的效率测试
5.6.4 备份缓存区容量的影响测试
5.7 应用场景
5.8 本章总结
第6章 总结与展望
6.1 总结
6.2 未来研究展望
参考文献
作者简介及科研成果
致谢
本文编号:3172907
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:117 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景与意义
1.1.1 分布式流数据处理
1.1.2 系统可靠性问题与容错机制
1.1.3 流数据处理容错技术的挑战
1.2 本文主要内容
1.3 论文组织结构
第2章 相关研究现状
2.1 分布式流数据处理系统
2.1.1 基于流式计算模型
2.1.2 基于批量计算模型
2.2 流处理自动并行化技术
2.3 容错技术
2.3.1 主动式备份
2.3.2 被动式备份
2.4 本章小结
第3章 支持分布式流处理的低开销容错机制
3.1 引言
3.2 相关工作
3.3 通用分布式流处理框架
3.4 系统模型
3.4.1 流数据处理作业
3.4.2 节点运行状态
3.5 低开销容错机制
3.5.1 异步检查点
3.5.2 上游数据备份
3.6 容错协议及算法
3.6.1 上游备份协议
3.6.2 协议开销分析
3.6.3 快速恢复算法
3.7 实验结果与性能分析
3.7.1 系统原型实现
3.7.2 实验设置
3.7.3 容错通讯开销
3.7.4 容错延迟开销
3.7.5 容错内存开销
3.7.6 故障恢复测试
3.8 本章小结
第4章 支持弹性流处理的自适应容错机制
4.1 引言
4.2 相关工作
4.3 弹性流处理下容错问题建模
4.3.1 问题概述
4.3.2 备份调整函数
4.3.3 问题模型假设
4.4 支持弹性流处理的自适应容错机制
4.4.1 弹性数据备份单元
4.4.2 数据依赖关系追踪
4.4.3 在线检查点调整机制
4.5 在线调整容错协议
4.6 实验与结果分析
4.6.1 系统原型实现
4.6.2 实验设置
4.6.3 容错开销测试
4.6.4 故障恢复测试
4.6.5 综合性能比较
4.7 本章总结
第5章 负载感知的最佳检查点间隔策略
5.1 引言
5.2 相关工作
5.3 最优检查点问题建模
5.3.1 系统模型
5.3.2 处理效率
5.3.3 问题定义
5.4 动态最优检查点间隔(DOCI)模型
5.4.1 在线恢复时间预测
5.4.2 最佳检查点时间间隔
5.5 动态OCI调整策略
5.5.1 动态OCI调整算法
5.5.2 缓存对OCI的影响
5.6 实验与结果分析
5.6.1 模拟方法
5.6.2 恒定输入率下的效率测试
5.6.3 工作量波动下的效率测试
5.6.4 备份缓存区容量的影响测试
5.7 应用场景
5.8 本章总结
第6章 总结与展望
6.1 总结
6.2 未来研究展望
参考文献
作者简介及科研成果
致谢
本文编号:3172907
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3172907.html