基于强化学习的流应用动态自适应检查点机制

发布时间:2021-05-12 04:00
  随着大数据应用场景的需求不断发展,流计算逐渐成为一种主流计算模式。流式应用通常需要持续地运行,在这个过程中难免要受到各类软硬件故障的影响,在分布式环境下故障的发生则会更加频繁。因此,在不影响实时性的情况下保证流处理应用的高可靠性是流计算领域的研究热点。在流处理的主流容错方法中,相较于需要高昂备份资源的主动备份,结合被动备份和上游备份的检查点机制是当前较为高效的容错手段。当采用检查点的容错方法时,选择合适的检查点周期是保障流应用平稳运行的关键。以Apache Flink为代表的流处理系统目前只支持固定周期的检查点,难以在动态变化的流应用场景中,对无故障运行时的容错代价和故障恢复的成本进行较好的权衡。本文首先研究了基于栅栏的检查点机制的容错开销,具体分析了流应用运行过程中检查点和故障恢复对于系统性能的影响程度,同时得出影响检查点运行时开销和故障恢复开销的主要因素。结合对检查点容错代价的分析,本文研究在负载、故障等环境指标动态变化的情况下,通过基于强化学习的方法,对检查点间隔进行动态的自适应调整,在避免对流应用整体环境的建模的同时,面向处理延迟和故障恢复时间进行自适应优化,基于Flink平台... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题来源
    1.2 课题研究背景和意义
    1.3 国内外研究现状
        1.3.1 流计算的主流容错方法
        1.3.2 基于检查点机制的容错方法
        1.3.3 检查点间隔优化方法
        1.3.4 动态检查点间隔优化方法
        1.3.5 现有研究的不足
    1.4 本文的主要研究内容
    1.5 论文组织结构
第2章 系统模型描述
    2.1 分布式流处理系统模型
    2.2 FLINK系统模型
        2.2.1 FLINK主从运行架构
        2.2.2 FLINK作业状态管理
    2.3 基于栅栏的检查点容错模型
        2.3.1 基于栅栏的异步检查点
        2.3.2 故障恢复模型
    2.4 强化学习模型
    2.5 本章小结
第3章 检查点优化问题建模和容错代价分析
    3.1 问题建模
    3.2 检查点运行时容错代价分析
    3.3 故障恢复容错代价分析
    3.4 本章小结
第4章 动态检查点间隔调整算法设计与实现
    4.1 算法设计
    4.2 算法开销分析
    4.3 基于FLINK平台的算法实现
    4.4 本章小结
第5章 实验设计与分析
    5.1 实验环境
    5.2 实验设置
    5.3 实验结果分析
        5.3.1 检查点间隔变化情况对比
        5.3.2 元组处理延迟对比
        5.3.3 故障恢复时间对比
    5.4 本章小结
结论和展望
参考文献
攻读硕士学位期间发表的论文及其他研究成果
致谢



本文编号:3182687

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3182687.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7ea44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com