当前位置:主页 > 科技论文 > 计算机论文 >

一种集群监控容错系统的设计与实现

发布时间:2018-06-23 20:27

  本文选题:集群 + 监控 ; 参考:《电子科技大学》2012年硕士论文


【摘要】:目前,集群技术是当今高性能计算系统的一个重要研究方向,集群系统以其高性价比、高扩展性、高可用性的特点,迅速发展成为高性能计算的一个重要解决方案,在石油物探行业得到广泛应用。 本文所研究的是面向地震数据处理的应用集群系统,,随着该集群中节点的数目和提交运行的作业数目越来越多,集群系统的监控和管理成了一个重大问题。伴随集群系统规模的不断扩大,系统发生故障的概率也随之增长,加上地震数据处理作业往往数据量都很大,作业执行时间也很长,如果发生故障造成作业运行失败,将会浪费大量的系统计算资源和时间资源。因此研究该应用集群系统的容错技术具有十分重要的意义。 本文研究设计的集群监控容错系统是该地震数据处理应用集群系统的重要支持系统,是专门针对地震数据处理特点开发的特殊辅助系统。针对上文提出的相关问题,本论文的主要工作包括: 第一,研究了现有的集群监控系统,设计并实现了面向地震数据处理平台集群系统的监控模块,完成了对整个应用集群系统的监控信息的采集、汇聚和显示等应用的具体实现。监控模块主要包括对集群节点信息和作业信息的监控,为系统管理员和用户进行集群管理和监控提供了方便。 第二,设计并实现了利用心跳包技术进行节点故障检测的集群系统容错功能,并且针对该地震数据处理的具体应用完成了节点故障后续处理的相关工作。该集群节点故障检测和处理的功能为本文设计的利用应用级作业检查点实现作业故障容错功能提供了基础。 第三,在研究现有检查点技术的基础上,并且针对地震数据处理作业的特点和地震数据处理流程的特殊性,设计并实现了基于地震数据单元的应用级作业检查点设置与回卷恢复功能,该功能结合节点容错功能,能够实现集群作业出现故障后的自动容错。通过实验测试验证了该应用级作业检查点的可行性,提高了集群系统的可用性,能够使作业在遇到故障时从检查点开始继续执行作业,减少了作业重复执行时间,避免了系统大量的计算资源和时间的浪费。
[Abstract]:At present, cluster technology is an important research direction of high performance computing system. With its high performance and price ratio, high scalability and high availability, cluster system has rapidly developed into an important solution for high performance computing. It is widely used in petroleum geophysical exploration industry. In this paper, an application cluster system for seismic data processing is studied. With the increasing number of nodes and jobs submitted to run in the cluster, the monitoring and management of cluster system becomes an important problem. With the continuous expansion of cluster system scale, the probability of system failure also increases, plus seismic data processing jobs are often very large data, job execution time is also very long, if failure caused by job failure, Will waste a lot of system computing resources and time resources. Therefore, it is of great significance to study the fault-tolerant technology of this application cluster system. The cluster monitoring and fault tolerant system studied in this paper is an important support system for the seismic data processing application cluster system. It is a special auxiliary system specially developed for the characteristics of seismic data processing. The main work of this paper is as follows: firstly, the existing cluster monitoring system is studied, and the monitoring module for the cluster system of seismic data processing platform is designed and implemented. The collection, aggregation and display of the monitoring information of the whole application cluster system are realized. Monitoring module mainly includes monitoring of cluster node information and job information, which provides convenience for system administrator and user to manage and monitor cluster. Secondly, the fault-tolerant function of cluster system using heartbeat packet technology to detect node fault is designed and implemented, and the related work of node fault follow-up processing is completed for the specific application of the seismic data processing. The function of the cluster node fault detection and processing provides the foundation for the application level job checkpoint to realize the job fault tolerance function designed in this paper. Thirdly, on the basis of studying the existing checkpoint technology, and aiming at the characteristics of seismic data processing and the particularity of seismic data processing process, An application level job checkpoint setting and rollback recovery function based on seismic data unit is designed and implemented. Combined with node fault-tolerant function, the automatic fault tolerance of cluster jobs is realized. The feasibility of the application level job checkpoint is verified by the experimental test, and the availability of the cluster system is improved, and the job can continue to execute from the checkpoint in the event of failure, thus reducing the time of repeated execution of the job. The waste of computing resources and time in the system is avoided.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP338;TP302.8

【相似文献】

相关期刊论文 前10条

1 尹国明,张强,朱耀明;CIMS物流系统及其作业管理[J];物流技术;2005年03期

2 郭改文;赵冰;;校园网格及其作业服务的研究[J];河南教育学院学报(自然科学版);2006年02期

3 ;日立JP1亮相2009金融展 展示安全高效的作业管理产品[J];计算机与网络;2009年17期

4 夏鑫;ABC/ABM与ERP的集成研究[J];中国管理信息化;2005年01期

5 胡瑜,陈涛;专家系统在生产制造系统(MES)中的应用[J];冶金设备;2005年05期

6 郭广军;朱昭君;王剑波;;基于SSH架构的课程作业与成绩管理系统[J];微电子学与计算机;2010年08期

7 王中生;钱卫平;;基于QoS的网格作业调度研究与设计[J];国外电子测量技术;2008年11期

8 谢蕾;谢华;;计算机化制造网格的工作流管理研究[J];制造业自动化;2010年07期

9 莫晓莉;王汝传;张琳;;基于移动代理和信任机制的网格作业管理[J];微电子学与计算机;2008年10期

10 曹荣强;迟学斌;武虹;肖海力;;基于Portlet的高性能计算Portal[J];计算机工程;2009年15期

相关会议论文 前10条

1 吴圯;;中小学教师如何加强学生作业管理[A];中国当代教育理论文献——第四届中国教育家大会成果汇编(上)[C];2007年

2 王永滨;石民勇;洪志国;;网络环境下集群渲染技术综述[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

3 葛自敏;;应用作业成本管理 加强煤炭成本控制[A];煤炭经济管理新论(第10辑)——第十一届中国煤炭经济管理论坛暨2010年中国煤炭学会经济管理专业委员会年会论文集[C];2010年

4 杨敏;;论物流活动的作业分析与管理[A];首届中国物流学会年会论文集[C];2002年

5 许保光;邢建民;王星原;梅强;;关于航空地面作业中同工种服务人员的安排问题[A];2003年中国管理科学学术会议论文集[C];2003年

6 郭广军;朱昭君;王剑波;;基于SSH架构的课程作业与成绩管理系统[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

7 王道堂;;计算机辅助设计中的绘图作业管理[A];中国土木工程学会计算机应用学会学术报告会论文集(4)[C];1989年

8 陈娟;王汝传;;基于移动代理的网格作业管理模型的研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

9 莫晓莉;王汝传;张琳;;基于移动代理和信任机制的网格作业管理[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年

10 杨继张;;高性能计算软硬件技术发展概述[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年

相关重要报纸文章 前10条

1 吕慧;鑫达冶炼室全封闭改造完成[N];中国黄金报;2010年

2 记者 崔茉 通讯员 卢毅;鲁迈拉油田作业管理权正式移交至ROO[N];中国石油报;2010年

3 王uG;黄金水道尚须精心打磨 参事聚会各陈意见建议[N];联合时报;2007年

4 艾文;日立JP1从两模块切入[N];中国计算机报;2003年

5 许萍萍;无形文化 有形操作[N];盘锦日报;2009年

6 鹏飞;收银员的作业管理[N];中国商报;2002年

7 记者 李飒;加强“三清”作业 提升保洁水平[N];铁岭日报;2010年

8 牡丹江市环卫处 焦庆华;强化科学管理 提升环境质量[N];牡丹江日报;2009年

9 本报记者 那忠郁;现场作业管理守住安全第1天[N];国家电网报;2010年

10 通讯员  刘振威 高军;做强自身 联手攻关[N];中国石油报;2006年

相关博士学位论文 前8条

1 陈轶西;战略导向的商业银行作业管理研究[D];暨南大学;2005年

2 方跃;作业管理新体系的研究[D];哈尔滨工程大学;2001年

3 杨冬菊;异构集群管理系统的关键技术研究[D];西北工业大学;2002年

4 张小芳;大规模分布式环境下集群管理系统的研究与实现[D];西北工业大学;2007年

5 赵晨阳;个性化旅游信息服务系统的基础理论与关键技术研究[D];兰州大学;2012年

6 刘士军;制造网格架构与制造资源协同管理技术研究[D];山东大学;2006年

7 李瑾坤;知识作业过程及难度描述[D];电子科技大学;2009年

8 顾力刚;VDT作业及其管理研究[D];华中科技大学;2004年

相关硕士学位论文 前10条

1 张昕瑞;作业管理及基于作业的信息系统研究[D];南京航空航天大学;2002年

2 陈英;新课程背景下的优化中学作业管理研究[D];华东师范大学;2005年

3 吴雨淋;网格资源与作业管理技术的研究[D];西北工业大学;2005年

4 张旭;企业作业成本法研究[D];暨南大学;2005年

5 苟艳洁;网络作业管理系统的研究与实现——在Windows 2000平台上的设计与实现作业管理与高性能集群计算的结合研究[D];西北工业大学;2002年

6 张馨;作业成本法相关问题的研究[D];天津大学;2007年

7 陈健忠;作业成本法在国际速递公司的应用研究[D];暨南大学;2009年

8 许琳红;作业成本法在我国商业银行的应用分析[D];天津大学;2004年

9 廖艳琳;作业成本法在电信企业中的应用研究[D];南京航空航天大学;2006年

10 朱涛;基于ABM-BSC理念的企业预算管理改进的应用研究[D];电子科技大学;2007年



本文编号:2058298

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2058298.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2a4e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com