当前位置:主页 > 管理论文 > 组织管理论文 >

基于集群环境的作业管理中间件的设计与实现

发布时间:2020-12-13 09:59
  集群作业管理系统作为高性能计算领域的核心技术,伴随着计算机技术的发展进步逐渐成为了计算机学科的热点研究领域。然而,传统作业管理系统大多需要以命令行的方式进行管理,用户需要熟练掌握多种调度器命令。本文就这些存在的问题,提出了基于Web架构的集群管理中间件,来实现降低用户门槛和提高集群利用率的目标。通过对几种比较成熟的集群作业管理系统架构进行了深入分析,并且以SLURM作业调度器为例,对其体系结构、作业执行过程做了重点研究。在此基础上,对集群作业管理中间件系统进行了全面的需求分析,并确定了实现该系统所需应用的关键技术,最终设计和实现了该作业管理中间件系统。除上述主要工作外,本文还针对传统作业管理系统做出了部分优化工作,主要是通过该中间件系统实现了集群管理、作业管理、资源监控、记账管理、日志管理等基本功能,还实现了管理员对集群架构、集群节点控制、用户管理等高级功能。这些功能优化使得管理员可以轻松管理整个集群,也为用户提交任务提供了统一透明的方式。本文针对SLURM作业管理系统做出的研究和优化,为用户提供了方便友好的操作方式,极大的提高了用户及管理员的工作效率,简化了集群的管理工作。 

【文章来源】:北京工业大学北京市 211工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于集群环境的作业管理中间件的设计与实现


技术架构图

测试效果


先在四台服务器节点上全新安装 CentOS 7.2 操作系统,并选择开使用的软件,分配各服务器的用途,并修改 hostname、网卡信息文件等配置,调整为默认文本登陆模式。所有服务器节点创建固定 UID 和 GID 的独立用户以供 SLURM 和 MU,需要注意在四台服务器上建立用户的 UID 和 GID 是完全一致的通信异常,同时要注意用户的目录权限,并配置用户的环境变量下来需要安装 MUNGE 程序软件,本文是通过 yum 源的方式安装,因依赖环境的问题造成的安装故障,同时不需要特殊配置,默认意此操作需要在所有服务器节点上进行。待所有节点均安装成功点上通过 MUNGE 命令 create-munge-key 创建一个通信密钥(此操um 源安装 rng-tools 来提供加密算法支持),对创造的密钥的权并拷贝给其他节点的相应目录下,此时再赋予 MUNGE 相应目录特改所有 MUNGE 相关目录的所有者为提前准备的用户并启动 MUNGE 过 munge -n | ssh 节点 IP/域名 unmunge 等命令来测试节点间通试通过的情况如图 5-1 所示。

效果图,效果图,节点


第 5 章 集群作业管理中间件系统的实现2)提取的安装程序为 RPM 包形式,保存在/root/rpmbuild/RPMS。用 SLURM 官方提供的在线配置工具生成配置文件,需要配置的信群名称、管理节点 hostname 及 IP、所有节点信息、SLURM 管理和目录等,尤其是节点信息要根据各服务器的配置情况进行填写,点和计算节点,通过 Scp 等命令将生成的配置文件传输到控制节节点相应目录下。接下来,创建 SLURM 管理和用户日志存放目录,修改目录权限,并修改所有 SLURM 相关目录的所有者为提前准后通过命令行在各节点启动 SLURMd 服务,在管理节点上启动 SLUSLURM 提供了 sinfo 命令来查看集群的分区和节点信息来验证安装该命令可以在任意节点上执行,同时该命令也在用户提交任务时证通过的情况如图 5-2 所示。

【参考文献】:
期刊论文
[1]高性能计算集群系统建设与运行管理研究[J]. 孟玲玲.  软件导刊. 2017(03)
[2]基于Linux的高性能计算集群MPI并行环境配置研究[J]. 金能智,者建武,李唐艳,孙一桐.  科技创新导报. 2017(03)
[3]面向Web的高性能计算集群作业调度系统[J]. 李薛剑,苏素,梁瑞,陈仕绮.  电脑知识与技术. 2016(27)
[4]基于节点集计算能力差异的Hadoop自适应任务调度算法[J]. 朱洁,李雯睿,王江平,赵红.  计算机应用. 2016(04)
[5]面向集群环境的虚拟化GPU计算平台[J]. 杨经纬,马凯,龙翔.  北京航空航天大学学报. 2016(11)
[6]云及高性能计算集群环境中配置管理系统设计[J]. 赵春燕,孙婧,魏敏.  计算技术与自动化. 2016(01)
[7]异构Spark集群下自适应任务调度策略[J]. 杨志伟,郑烇,王嵩,杨坚,周乐乐.  计算机工程. 2016(01)
[8]基于虚拟化集群的核设计平台作业调度系统研究与实现[J]. 姚建凡,管宇,王一楠,陈俊.  计算机与数字工程. 2015(10)
[9]海南大学 高性能计算与云计算平台融合[J]. 李文化,陈讨海.  中国教育网络. 2015(10)
[10]基于ExtJs的集群作业调度策略配置系统的设计与实现[J]. 王小龙,刘光明,赵志威.  工业仪表与自动化装置. 2015(03)

硕士论文
[1]服务器集群监控系统的设计与实现[D]. 朱瑞斌.北京交通大学 2015



本文编号:2914364

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2914364.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9b71***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com