当前位置:主页 > 科技论文 > 计算机论文 >

基于磁盘I/O性能的Hadoop任务选择策略

发布时间:2021-07-23 21:07
  最大化利用本地磁盘的I/O资源是提升计算集群性能的关键,但Hadoop系统中多数调度算法未考虑此项因素。为此,引入磁盘负载作为Map任务选择的权衡参数,任务调度时参照磁盘负载程度选择合适的任务,以保证数据节点上各磁盘的负载相对均衡,并据此设计新的任务选择模块集成到Hadoop的调度器中。同时为进一步提升Hadoop系统的性能,实现Map作业的近似完全本地化执行。实验结果表明,该任务选择策略能够充分利用数据节点本地磁盘的I/O资源,可使节点的I/O Wait平均降低5%,CPU利用率平均上升15%,作业的执行时间缩短20%。 

【文章来源】:计算机工程. 2016,42(11)北大核心CSCD

【文章页数】:7 页

【部分图文】:

基于磁盘I/O性能的Hadoop任务选择策略


作业调度架构

基于磁盘I/O性能的Hadoop任务选择策略


MapsList结构

性能测试,磁盘


op02/data8/dfs/dn35……Hadoop07/data8/dfs/dn24在作业初始化时会读取该配置文件,若没有指定,默认Accept值为2,maxAccept值为999(表示没有限制)。3实验结果与分析实验环境是一个由8个节点组成的Hadoop集群,其中一个作为JobTracker,另外7个作为TaskTracker。所采用的Hadoop版本为HDFS2.0,MapReduce0.20。单个节点的配置为12×2.4GHzCPU,24GB内存,千兆以太网卡,5×1TB的7200转的SATA硬盘。本文测试Hadoop调度算法是在计算能力调度算法基础上实现的。3.1磁盘性能测试对单块磁盘的性能测试结果如图4所示。从图中可以看出,当一块磁盘上同时运行的任务数小于3时,用户的CPU利用率cpu_user近似于占用的CPU核数/机器总核数,且CPU等待I/O操作时间cpu_wio较低;当同时运行的任务数超过6个时,cpu_user不在增高,而cpu_wio持续上升。因此,本文实验环境设定diskAccept=3,maxDiskAccept=6。图4磁盘性能测试结果3.2实际作业测试测试作业使用高能物理中的真实的BESIII实验数据,分析程序采用样例程序(Rhopi事例分析程序)。由于在高能物理中用户是批量提交作业,且同一用户的同一批作业优先级相同,因此Map任务选择优先级设置为user级。作业的参数设置如表2所示。表2作业参数设置作业编号文件数文件总大小/GBJob15067Job25065Job35062Job45066Job55071Job65064Job75061Job8506080

【参考文献】:
期刊论文
[1]基于负载均衡的Hadoop动态延迟调度机制[J]. 陶永才,李文洁,石磊,刘磊,卫琳,曹仰杰.  小型微型计算机系统. 2015(03)
[2]基于MapReduce的高能物理数据分析系统[J]. 臧冬松,霍菁,梁栋,孙功星.  计算机工程. 2014(02)



本文编号:3300040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3300040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f237***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com