当前位置:主页 > 科技论文 > 数学论文 >

基于Storm的数据实时处理系统任务调度机制研究

发布时间:2020-08-20 17:49
【摘要】:由于分散的各个天文台源源不断地产生天文观测数据,为了方便检索,要求天文元数据的处理系统必须具备很高的实时性,而传统的批处理大数据平台需要将数据下载存储后再处理,因此难以满足系统的高实时性要求。Storm作为一个分布式流数据实时处理框架,能够保证大流量数据处理的时效性,因此本文考虑将其应用到天文元数据处理系统中,以实现数据流的实时接收与处理。通过分析发现影响Storm系统性能的核心问题之一是系统任务调度机制。目前Storm系统使用的默认调度机制为简单的轮询机制,虽然能够实现一定的负载均衡,但是针对天文元数据实时处理更复杂的任务需求,将产生较大的系统性能瓶颈。针对Storm系统调度问题,本文主要从两个部分共同实现优化:第一个方面是增加系统弹性机制以提高系统的资源利用;第二个部分是通过优化任务部署来减小系统的通信开销。首先,针对Storm系统弹性机制缺失问题,论文提出在系统中嵌入一个实时的自适应弹性机制模块,通过不断获取系统运行的状态信息,根据信息做出相对应的调度决策,动态的为每个Topology应用配置合理的计算资源,使系统的资源可以得到更充分的利用;然后,针对目前任务部署不合理而造成系统通信开销过大的问题,论文提出了一种基于图划分技术的任务部署调度优化方法。具体做法是将运行中的Topology计算应用看作一张带权重的图,然后利用图划分技术来对这张图进行处理,得到一个合理的任务部署优化调度方案。调度方案在保证负载均衡的条件下,可以有效地减小系统的通信开销。最后将调度方案提交给系统实施调度,实现减少系统处理时延,提高系统吞吐量的目标。论文对提出的调度优化方案进行了实现并搭建了实验环境,对系统的功能及性能进行了全面测试。试验结果表明,论文设计的调度优化方案能够在资源利用,系统处理时延以及吞吐量方面实现性能的提升。该调度方案的研究与实现,有效提升了Storm系统的性能,为天文元数据的实时处理提供了关键技术支撑。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP274;O157.5;P11
【图文】:

系统框架,进程


图 2.1 Storm 系统框架图节点被称为 Worker Node,也被称为工作节点,在这些工作节点当中叫 Supervisor 的程序。Supervisor 可以理解为单机任务调度器,它负bus 程序发出的任务调度,然后启动相应的 Worker 进程对 Nimbus 分进行计算处理。同时,它也会监测由自身启动的 Worker 进程的运行现有 Worker 进程处于非正常状态,就会 Kill 掉这个 Worker 进程,给该 Worker 进程的任务交还给 Nimbus,进行一个重新分配。Supe着一个主线程和三个副线程,如图 2.2 所示:

线程,进程,任务调度


图 2.1 Storm 系统框架图节点被称为 Worker Node,也被称为工作节点,在这些工作节点当中叫 Supervisor 的程序。Supervisor 可以理解为单机任务调度器,它负bus 程序发出的任务调度,然后启动相应的 Worker 进程对 Nimbus 分进行计算处理。同时,它也会监测由自身启动的 Worker 进程的运行现有 Worker 进程处于非正常状态,就会 Kill 掉这个 Worker 进程,给该 Worker 进程的任务交还给 Nimbus,进行一个重新分配。Supe着一个主线程和三个副线程,如图 2.2 所示:

交互图,交互图,元数据,计算应用


/storm/workerbeats/<topology-id>/node-port计信息。/storm/storms/<topology-id>存储 Topology 计算应用的名字、运行状态、并行度设置、启动时间等信息。在运行过程中,这里的数据是不会变化的。/storm/assignments/<topology-id>存储了Nimbus进程为每个Topology计算应用所分配的任务信息。主要包括 Supervisor 与主机名的映射关系、工作线程的启动时间等。/storm/supervisor/<supervisor-id>存储了 Supervisor 所在节点的更新时间、主机名、supervisor-id、已经使用的 slot 列表等运行统计信息/storm/errors/<topology-id>/<component-id>/<sequential-id>记录了运行过程中,每个组件发生错误的信息。但是每个组件只会保存最近的 10 条错误信息。

【参考文献】

相关期刊论文 前2条

1 彭宇;庞景月;刘大同;彭喜元;;大数据:内涵、技术体系与展望[J];电子测量与仪器学报;2015年04期

2 崔星灿;禹晓辉;刘洋;吕朝阳;;分布式流处理技术综述[J];计算机研究与发展;2015年02期



本文编号:2798259

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2798259.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32c21***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com