面向高性能计算的众核处理器轻量级错误恢复技术研究
[Abstract]:With the progress of semiconductor technology, a large number of core processors integrated on a single chip have been widely used in the field of high performance computing. Compared with multi-core processors, multi-core processors can provide better computing density and energy efficiency ratio, but also face more and more serious reliability challenges. It is necessary to design an efficient processor fault-tolerant mechanism to effectively ensure the running efficiency of the project without bringing large chip power consumption and area overhead. Based on a prototype of an autonomous multicore processor DFMC (deeply fused and heterogeneous many-core, depending on whether the application running on the core has the characteristics of relevance, Two lightweight error recovery technologies, independent and cooperative, are proposed and implemented for multi-core processors. Among them, the cooperative recovery technology is managed by the centralized components, and through the collaborative recovery bus interconnection, multiple cores associated with the error are quickly rolled back to the correct state in the event of an error. Both the retention and recovery processes are realized by custom instructions, and the information needed for recovery is retained in the core of the operation to ensure that the impact on the performance of the project is minimized. The experimental results show that only 1.257% of the chip area is increased by the above technology, which can solve the instantaneous error of about 80% of the independent multi-core processor, and has little effect on the performance, chip timing and power consumption of the project. It can effectively improve the fault-tolerant ability of multi-core processors.
【作者单位】: 数学工程与先进计算国家重点实验室;
【基金】:国家“八六三”高技术研究发展计划基金项目(2014AA01A301) “核高基”国家科技重大专项基金项目(2013ZX0102-8001-001-001)
【分类号】:TP332
【参考文献】
相关期刊论文 前2条
1 黄海林;唐志敏;许彤;;龙芯1号处理器的故障注入方法与软错误敏感性分析[J];计算机研究与发展;2006年10期
2 贾佳;杨学军;李志凌;;一种基于冗余线程的GPU多副本容错技术[J];计算机研究与发展;2013年07期
【共引文献】
相关期刊论文 前10条
1 张英武;袁国顺;;微处理器故障注入工具与故障敏感度分析[J];半导体技术;2008年07期
2 张程烨;张大伟;陈辰;;面向星载应用的软件故障注入方法[J];仪器仪表用户;2013年02期
3 梁华国;陈凡;黄正峰;;时序敏感的容软错误电路选择性加固方案[J];电子测量与仪器学报;2014年03期
4 张丽娜;梁华国;黄正峰;邢璐;;一种基于二分查找的电路选择性加固方案[J];电子测量与仪器学报;2014年07期
5 孙岩;张民选;李少青;高昌垒;;基于敏感寄存器替换的电路软错误率与开销最优化[J];计算机研究与发展;2011年01期
6 潘庆和;洪炳熔;;软件故障优化注入方案研究与分析[J];计算机研究与发展;2011年03期
7 绳伟光;肖立伊;毛志刚;;用于电路级仿真软故障注入的自动化方法[J];计算机辅助设计与图形学学报;2009年03期
8 绳伟光;肖立伊;毛志刚;;组合逻辑电路的软错误率自动分析平台[J];计算机辅助设计与图形学学报;2009年11期
9 胡嘉伟;江建慧;;一种面向软件可靠性评估的故障注入机制的设计与实现[J];计算机辅助设计与图形学学报;2012年06期
10 孙科;梁华国;黄正峰;王伟;;一种基于三模冗余令牌的自恢复控制器[J];计算机应用;2009年02期
相关会议论文 前7条
1 舒晓芬;王晓峰;余鹏;;某BIT测试性指标验证系统的研究与实现[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
2 潘送军;胡瑜;李晓维;;多核处理器瞬态故障敏感性分析[A];第五届中国测试学术会议论文集[C];2008年
3 王天成;吕涛;李晓维;;RTL错误注入的方法和实现[A];第五届中国测试学术会议论文集[C];2008年
4 吴珍妮;梁华国;黄正峰;王俊;陈秀美;曹源;;容软错误的电路选择性加固技术[A];第六届中国测试学术会议论文集[C];2010年
5 赵利;陈中梁;胡瑜;李晓维;;软硬件协同的微处理器可靠性设计评估平台[A];第六届中国测试学术会议论文集[C];2010年
6 胡嘉伟;江建慧;;一种面向软件可靠性评估的故障注入机制的设计与实现[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
7 田增;朱英;巨鹏锦;曹华;;基于VPI的故障注入验证环境[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
相关博士学位论文 前10条
1 孙岩;纳米集成电路软错误分析与缓解技术研究[D];国防科学技术大学;2010年
2 朱丹;基于时序等价性检查的电路软错误系统级可靠性分析方法研究[D];国防科学技术大学;2010年
3 刘必慰;集成电路单粒子效应建模与加固方法研究[D];国防科学技术大学;2009年
4 龚锐;多核微处理器容软错误设计关键技术研究[D];国防科学技术大学;2008年
5 黄正峰;数字电路软错误防护方法研究[D];合肥工业大学;2009年
6 绳伟光;数字集成电路软错误敏感性分析与可靠性优化技术研究[D];哈尔滨工业大学;2009年
7 成玉;高性能微处理器动态容软错误设计关键技术研究[D];国防科学技术大学;2012年
8 刘光辉;高效处理器容错技术研究与实现[D];国防科学技术大学;2013年
9 熊磊;面向程序级的软错误容错研究[D];国防科学技术大学;2012年
10 谭兰芳;面向软错误的故障恢复和验证技术研究[D];国防科学技术大学;2013年
相关硕士学位论文 前10条
1 缪斯;深亚微米FPGA互连抗软错误方法研究[D];复旦大学;2011年
2 唐志敏;基于CPCI总线的故障模拟系统的研究与实现[D];哈尔滨工业大学;2011年
3 孙金银;基于时序等价性检查的组合逻辑单元软错误可靠性分析[D];国防科学技术大学;2011年
4 孙科;基于令牌加固的自恢复容错控制器设计研究[D];合肥工业大学;2009年
5 安龙飞;高可靠8051中ALU和系统管理单元的可靠性技术研究与实现[D];国防科学技术大学;2008年
6 黄捚;组合电路软错误敏感性分析与加固[D];哈尔滨工业大学;2008年
7 曹源;有限状态机的容软错误及低功耗设计[D];合肥工业大学;2010年
8 吴珍妮;数字电路容错设计与研究[D];合肥工业大学;2010年
9 邓先坤;SRAM型FPGASEU故障注入系统设计[D];哈尔滨工业大学;2013年
10 杨森彬;航天总线容错性能测试平台的研究与实现[D];哈尔滨工业大学;2013年
,本文编号:2476660
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2476660.html