当前位置:主页 > 科技论文 > 计算机论文 >

单机检查点系统平台相关性研究及性能优化

发布时间:2020-03-31 07:50
【摘要】: 机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大的作业无法完成。检查点系统为节点提供了较好的容错性能,因此成为机群操作系统软件的重要组成部分。通过建立单机检查点系统可以提高操作系统的可靠性,减少运算损失,同时也为构造其他容错软件,甚至是建立整个机群环境的并行检查点系统提供基础。 本文主要针对单机检查点系统的实现技术进行研究,并以曙光4000系列机群为平台,重点讨论了系统级检查点的平台相关性和性能优化策略。曙光4000A中使用的Opteron是基于AMD公司的x86-64架构的处理器。目前还没有开源的检查点系统对该体系结构提供过支持或者相关技术探讨。 本文首先分析比较了现有检查点系统,对检查点实现技术进行深入研究,重点讨论了系统级检查点BLCR的实现机制。 然后通过对x86-64体系结构的分析,实现了BLCR对AMD Opteron的支持,并对系统级检查点的平台相关性进行了探讨。 最后提出了两种检查点系统中进程地址空间的优化存储策略。其中组合式检查点文件写策略解决了并发写机制在应用内存接近物理内存时的性能突降问题,A-O(Access-Order)进程地址空间存储策略调整传统地址空间的存储顺序,使大内存应用的检查点操作性能得到了大幅度提升。实验表明,A-O进程地址空间存储策略最高可以将传统的存储策略的时间开销缩减至原来的50%。
【图文】:

消息传递,进程


第 2 章 检查点研究现状查点技术并行计算机系统检查点技术就是通过各种协议的设计,利用单进/恢复利用消息传递系统进行通信的并行程序的状态。递系统全局一致状态息传递系统由一些相互协调合作运行的分布式应用程序进程组成过消息传递来通信,且与外界(outside world)通过发送输出行交互。图 2.1 给出了一个包含 3 个进程的消息传递系统。

状态图,一致状态,状态,消息


图 2.1 具有 3 个进程的消息传递系统消息传递系统的全局状态包括所有参与进程的局部状态以及通信通统状态定义为:系统状态中不包含孤立消息。孤立消息定义为:消,但是发送事件却丢失了。图 2.2 给出了一致状态和非一致状态的,表示 m1 已经被发送,,但是还没有被接收。m1 称为传递中消息。统全局状态的一部分,这些消息不会导致不一致。(b)是非一致状态,记录下来,实际 P1 的状态记录 m2 还没有发送。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP338

【相似文献】

相关期刊论文 前10条

1 温冬蝉,王鼎兴;基于机群系统的C++语言并行化实现[J];计算机学报;1997年01期

2 李海峰,周革,井文才,李朝辉,邓玉秀,张以谟;具有路由功能的光纤链路接口卡在机群系统中的应用[J];天津大学学报(自然科学与工程技术版);2002年06期

3 郝晓云,范玉妹;Linux机群并行应用监控系统[J];计算机时代;2002年12期

4 唐依珠;工控机二模容错系统结构设计[J];福州大学学报(自然科学版);1995年06期

5 路林吉,邵世煌;容错控制系统设计及应用[J];上海第二工业大学学报;1998年01期

6 杨文勃,陈晓斌;NT磁盘容错及恢复方法[J];飞行器测控学报;1999年04期

7 刘铁军;张宏利;;数据库故障及容错对策[J];工业技术经济;2005年06期

8 钱巍;张燕晖;迟媛;;机群环境下基于PCG法的有限元并行算法[J];东北农业大学学报;2006年03期

9 赵京;张凯亮;冯登殿;;冗余度机械臂容错操作中关节速度突变[J];北京工业大学学报;2007年11期

10 赵宏颖;;机群环境下有限元的并行直接解法[J];齐齐哈尔大学学报(自然科学版);2010年01期

相关会议论文 前10条

1 吴兰臻;;混合型三模余度设计及其实现[A];中国仪器仪表学会第三届青年学术会议论文集(下)[C];2001年

2 罗程;钟诚;杨锋;米爱中;;机群环境下并行选择算法的实现与分析[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

3 田军霞;赵京;张凯亮;;冗余度机器人锁定故障关节后容错空间的变化研究[A];人才、创新与老工业基地的振兴——2004年中国机械工程学会年会论文集[C];2004年

4 裴健;赵畅;柴玮;杨冬青;唐世渭;;覆盖算法中的一组容错策略[A];第十六届全国数据库学术会议论文集[C];1999年

5 马宏;王民北;;一种全分布的容错/高可用性MTP设计[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

6 丁洵伟;张立荣;王家齐;;空间飞行器有效载荷地面监控管理计算机系统体系结构[A];中国空间科学学会空间探测专业委员会第十一次学术会议论文集[C];1998年

7 李学聪;万频;李敏;宋亚男;李军;;基于组合导航系统的网络故障检测与容错技术研究[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年

8 奚赫然;玄萍;李金宝;;基于DCOM的并行数据重分布技术[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年

9 吴松平;葛成辉;谭耀麟;;遥感图像自适应容错格式化同步器的研究和实现[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年

10 颜承元;颜士华;;软件容错技术新探[A];第十一届全国煤矿自动化学术年会论文专辑[C];2001年

相关重要报纸文章 前10条

1 马鑫;低容错成本谁之过[N];中国汽车报;2005年

2 ;Stratus ftServer 6500Stratus W2K4路SMP容错平台[N];中国计算机报;2002年

3 吴宁川;国产机群系统高校突围[N];中国计算机报;2003年

4 常文杰;新容错浪潮[N];网络世界;2004年

5 本报记者 郭涛;16~64颗CPU机群是应用主流[N];中国计算机报;2005年

6 ;NEC服务器凭借容错优势加强推广力度[N];电脑商报;2004年

7 ;曙光打造高性能机群系统的产业辉煌[N];中国电脑教育报;2003年

8 西南政法大学副教授 和静钧;从“气候门”看容错规则[N];南方日报;2009年

9 张可;实现磁盘容错功能的关键技术[N];中国化工报;2001年

10 潘永花;富含生命力的“容错”[N];网络世界;2004年

相关博士学位论文 前10条

1 刘建;机群系统并行程序调试环境研究[D];清华大学;2002年

2 周明辉;面向对象的容错中间件的研究与实现[D];中国人民解放军国防科学技术大学;2002年

3 周双娥;实时分布容错系统的任务调度技术研究[D];哈尔滨工程大学;2003年

4 王平;嵌入式计算机控制系统容错策略研究[D];中国科学院研究生院(上海微系统与信息技术研究所);2004年

5 王开健;基于特大增量步算法的网络并行计算[D];清华大学;2005年

6 王磊;容错实时系统可调度性分析研究[D];浙江大学;2005年

7 胡磊;功率变换器的分布式控制和结构研究[D];浙江大学;2005年

8 顾华玺;直连网络关键技术的研究[D];西安电子科技大学;2005年

9 王海亮;超立方体网络的容错泛连通性[D];中国科学技术大学;2009年

10 刘峰;仪用主从耦合分布式并行处理容错系统体系结构研究[D];浙江大学;2003年

相关硕士学位论文 前10条

1 王亮;机群环境下支持文件访问的检查点技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2006年

2 蔡斌;基于.NET Framework的分布式并行计算系统研究[D];重庆大学;2005年

3 闫丹丹;基于自适应方法容错控制系统设计[D];吉林大学;2004年

4 王亮;实时操作系统容错调度技术的研究与实现[D];电子科技大学;2004年

5 龙海;基于移动Agent的并行计算研究[D];电子科技大学;2005年

6 邓佳;容错CORBA中复制管理及失效管理基础设施的研究与实现[D];中国人民解放军国防科学技术大学;2002年

7 王丽侠;基于CORBA的多层C/S模式的研究与应用[D];大庆石油学院;2003年

8 王志刚;基于MIDAS的分布式多层系统的容错研究与应用[D];湖南师范大学;2001年

9 杨云波;二模容错计算机系统研究与设计[D];西北工业大学;2002年

10 蒲静;网格环境下有关数据复制及容错的研究[D];西南石油学院;2004年



本文编号:2608788

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2608788.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fca98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com