当前位置:主页 > 理工论文 > 系统学论文 >

大规模高通量计算系统的可靠性设计研究年度报告

发布时间:2022-12-22 06:45
  高通量计算系统由海量的计算节点、存储节点通过网络互连而成。由于规模巨大,系统的可靠性成为一个非常严重的问题,部件失效已经成为一种常态,系统设计必须考虑容错的问题。我们需要建立新的高通量计算系统的可靠性保障框架,来适应高通量计算中不同层次的可靠性需求,研究从芯片级到系统级跨层次的可靠计算技术。围绕该目标,该研究从高通量处理芯片的故障检测和容错设计方法,高通量计算系统的失效检测和恢复方法和从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合(5S)支撑环境3方面展开研究。截至2013年各项工作按照任务书原定计划正在稳步推进,部分工作取得阶段性成果。在(1)针对NBTI老化故障的在线预测技术;(2)深度学习等系统故障预测技术;(3)寄存器故障诊断;(4)片上网络通信隔离技术等技术点上取得了突破,共发表录用了IEEE Transactions论文6篇,其他期刊论文1篇。从研究点覆盖来看,部署到研究点已经全部覆盖了任务书规定的所有研究计划,并对某些研究点进行了细化。 

【文章页数】:1 页


本文编号:3723668

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/xtxlw/3723668.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1676b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com