当前位置:主页 > 管理论文 > 物流管理论文 >

基于Hadoop的交通物流大数据处理系统设计与实现

发布时间:2021-03-05 19:17
  近年来,大数据处理技术对于各行业和政府部门的决策分析和运营起到日渐重要的作用。本文以某省交通物流云平台项目为背景,该项目要求以MapReduce作业执行框架和Hadoop为技术基础,为数以千计的交通物流企业和政府部门的交通物流SaaS应用提供大数据处理服务。由于面向交通物流的大数据处理应用开发涉及交通物流业务专家、数据分析专家和应用程序开发人员等多个角色,因此,如何实现多角色协同的大数据处理应用敏捷开发是需要解决的关键问题。另外,虽然MapReduce工作流引擎Oozie可支持大数据处理应用的流程化组装,但是,如何防止Oozie在执行时由于结点之间的数据依赖而导致执行效率低,也是需要解决的实际问题。针对上述问题,本文在对MapReduce、Hadoop、Oozie等相关技术进行分析的基础上,提出并实现了一种上下游结点部分并行的MapReduce工作流执行优化方案,设计并实现了一个支持协同开发和工作流组装的交通物流大数据处理系统。测试和应用情况表明,该系统是可行及有效的。与同类系统相比,本文工作具有以下特点:1)针对MapReduce工作流执行效率低的问题,提出上下游结点部分并行的Map... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:91 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的交通物流大数据处理系统设计与实现


MapReduce作业初始化顺序图

状态转换图,作业状态,转换图,阶段数


基于Hadoop的交通物流大数据处理系统介绍 MapReduce 中的这四种任务: Task: 作业执行过程中的第一个Task,进行一些简单的初始 Task:Map 阶段数据处理任务,该 Map Task 的数量是由输。ce Task:Reduce 阶段数据处理任务。Reduce Task 数量是用 。nup Task:作业结束任务,主要做一些清理工作,如删除作录等。示为 MapReduce 作业的状态转换图:

类图,任务调度,作业调度,调度器


基于Hadoop的交通物流大数据处理系统设计与实现作业提交到 JobTracker 并初始化,生成 Map Task 和 Reduce Task 后,作业调器可以进行作业的分配。TaskTracker 会定时向 JobTracker 发送心跳信息,心跳息中包含当前该 TaskTracker 的状态信息,包括资源使用情况等,JobTracker 根该信息,调用作业调度器向该 TaskTracker 分配作业,作业分配情况包含在心跳应信息中返回到 TaskTracker 中。Hadoop 中默认的作业调度器为 FIFO 调度器,调度器用先进先出的队列保存作业列表,并按照队列顺序进行任务调度。FIFO度器的关键类类图如图 3-5 所示:

【参考文献】:
硕士论文
[1]MapReduce作业组合系统的研究与实现[D]. 朱晨杰.上海交通大学 2013
[2]基于MapReduce的关系数据联机分析处理技术研究[D]. 张冬洁.华中科技大学 2012



本文编号:3065723

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/wuliuguanlilunwen/3065723.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户21dae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com