分布式流处理系统的两阶段任务调度研究
发布时间:2022-08-13 15:23
当今社会早已进入数字化时代,每天都会产生海量的数据,如何处理大数据对于现有的计算机来说是一个严重的挑战。由于海量的数据量不断交由计算机进行处理,系统很难及时响应。不论是微博、推特的实时热点数据检测,还是华尔街、纳斯达克的股票交易等这些应用场景都亟需低延迟的实时流处理计算系统的支持。现有的实时流处理系统有Storm、Heron、Flink等。这些系统普遍采用基于轮询的任务调度策略,该策略没有考虑到通信时延,大多数情况下都会增加系统时延。在考虑通信时延时,调度系统将互相通信的任务实例放置在一个节点。当数据源数据量较大时,这一方法存在使部分节点负载过重增加计算时延的问题。系统时延由通信时延和计算时延组成,如何综合考虑这两种时延是一个需要解决的问题。为了解决该问题,提出一个两阶段方案。第一阶段是初始化阶段,根据用户提交的拓扑提出考虑数据源数据量较少的静态调度,并且为第二阶段提供调度集。第二阶段系统开始运行,提出基于强化学习的动态调度,该方法在面对数据源动态变化时,能够自适应动态调整调度策略。实验结果表明,两阶段方案可以在面对数据源动态变化的情况下,处理大规模流数据时保证时延尽可能低。在数据源稳...
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
2 两阶段调度的系统设计
2.1 问题提出
2.2 系统架构设计
2.3 工作流程
2.4 本章小结
3 结合流处理的系统实现
3.1 总体实现
3.2 日志收集模块的实现
3.3 时间同步器模块的实现
3.4 数据存储和预处理模块的实现
3.5 自定义调度器模块的实现
3.6 本章小结
4 实验分析
4.1 系统环境
4.2 平台搭建
4.3 数据预处理
4.4 性能测试
4.5 本章小结
5 总结及展望
5.1 本文总结
5.2 研究展望
参考文献
致谢
附录1 攻读硕士学位期间申请的计算机软件著作权
【参考文献】:
期刊论文
[1]基于分布式流处理的自适应数据分发策略[J]. 闾程豪,荆一楠,何震瀛,王晓阳. 计算机应用与软件. 2018(08)
[2]基于Storm拓扑结构热边的调度算法[J]. 熊安萍,王贤稳,邹洋. 计算机工程. 2017(01)
本文编号:3677282
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
2 两阶段调度的系统设计
2.1 问题提出
2.2 系统架构设计
2.3 工作流程
2.4 本章小结
3 结合流处理的系统实现
3.1 总体实现
3.2 日志收集模块的实现
3.3 时间同步器模块的实现
3.4 数据存储和预处理模块的实现
3.5 自定义调度器模块的实现
3.6 本章小结
4 实验分析
4.1 系统环境
4.2 平台搭建
4.3 数据预处理
4.4 性能测试
4.5 本章小结
5 总结及展望
5.1 本文总结
5.2 研究展望
参考文献
致谢
附录1 攻读硕士学位期间申请的计算机软件著作权
【参考文献】:
期刊论文
[1]基于分布式流处理的自适应数据分发策略[J]. 闾程豪,荆一楠,何震瀛,王晓阳. 计算机应用与软件. 2018(08)
[2]基于Storm拓扑结构热边的调度算法[J]. 熊安萍,王贤稳,邹洋. 计算机工程. 2017(01)
本文编号:3677282
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3677282.html