基于TMR-CUDA容错架构的星载GPU抗SEU技术研究
发布时间:2020-11-09 15:24
星载计算机作为星载系统最核心的部分,负责着星务管理、在轨信息处理、卫星控制等重要工作。随着空间探索任务的深入,需要提高星载系统的在轨处理能力,星载处理器也将朝着高性能、低功耗的方向发展。由于传统抗辐射芯片制造工艺复杂,性能低,功耗以及成本都很高,难以满足构建高性能、低功耗的星载计算机的要求。而商用GPU(Grapfics Processing Unit,图形处理器)具有强大的数据处理能力和较低的功耗要求,同时价格成本也较低,本文将商用GPU应用在星载系统上,可以为航天领域提供一条构建高性能、低功耗、低成本的星载计算机应用思路。然而在太空的辐射环境中星载计算机会受到大量的辐射效应影响,其中SEU(Single-Event Upsets,单粒子翻转)的影响最为严重,因此在星载系统上应用GPU最重要的是解决其可靠性问题。本文以星载GPU抗SEU技术为研究课题,在充分研究SEU产生机制与现有的容错方法的前提下,分析了SEU效应对GPU系统不同层次的影响。通过软件容错的方法来解决由SEU所引起的硬件瞬时故障,对GPU内部硬件结构、通信机制以及CUDA(Compute Unified Device Architecture,统一计算设备架构)软件计算平台的线程组织形式、指令调度方式的研究,结合GPGPU(General Purpose GPU,通用计算图形处理器)的体系结构特点与TMR(Triple Modular Redundancy,三模冗余)结构提出基于TMR-CUDA的容错架构,根据CUDA不同的线程组织方式,对容软错误方案进行多级优化工作。针对基准程序的实验分析,实现基于计算资源的容错方案开销降低为60%左右,利用线程束冗余容错的性能开销降低为26%左右。最后根据本文设计的方案建立软件的可靠性模型以及通过故障注入实验来评估容错方案的可靠性。本课题旨在分析GPU在星载系统上的应用前景,为提升星载系统的在轨计算能力提供新思路,本文通过对星载GPU容错方案的研究,来提高星载系统的可靠性,并且通过故障注入实验对容错方案进行验证。充分发挥GPU高性能、低功耗、低成本的优势,为GPU在星载系统上应用的进一步研究提供了基础,本文对于星载GPU抗SEU技术研究具有重要的理论与实践意义。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:V446
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题背景与意义
1.1.1 课题背景
1.1.2 星载GPU的可行性分析
1.1.3 课题研究意义
1.2 国内外研究现状
1.2.1 SEU效应发展
1.2.2 GPU容错技术研究现状
1.3 课题主要工作
1.4 论文的结构安排
第二章 SEU效应和容错技术基本理论
2.1 SEU介绍
2.1.1 SEU产生机制
2.1.2 SEU效应对星载处理器的影响
2.2 容错技术介绍
2.2.1 容软错误的基本原理
2.2.2 硬件容错技术
2.2.3 软件容错技术
2.2.3.1 进程级容错
2.2.3.2 线程级容错
2.2.3.3 指令级容错
2.2.3.4 源代码级容错
2.3 本章小结
第三章 GPGPU体系结构与CUDA编程模型
3.1 统一架构的GPU体系结构
3.2 CUDA编程模型与GPU结构映射
3.2.1 软件体系
3.2.2 CUDA编程模型
3.2.3 CUDA存储模型
3.2.4 GPU结构映射模型
3.3 GPGPU-SIM模拟器与线程执行模式
3.4 本章小结
第四章 星载GPU抗SEU技术研究
4.1 基于TMR-CUDA的GPGPU容错技术分析
4.1.1 基于时间冗余的KERNEL级容错方案
4.1.2 基于多GPU的KERNEL级容错方案
4.1.3 基于VLIW调度器的指令级并行容错方案
4.1.4 基于计算资源的BLOCK级容错方案
4.1.5 基于线程束WARP级容错方案
4.2 比较与投票算法设计
4.3 本章小结
第五章 星载GPU容错性能和可靠性分析
5.1 实验平台设计
5.1.1 实验环境与平台参数设置
5.1.2 基准程序测试
5.2 实验性能分析
5.3 可靠性评估方法研究与结果分析
5.3.1 软件容错方案的可靠性评估模型
5.3.2 故障注入与结果分析
5.4 本章小结
第六章 总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
【参考文献】
本文编号:2876617
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:V446
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题背景与意义
1.1.1 课题背景
1.1.2 星载GPU的可行性分析
1.1.3 课题研究意义
1.2 国内外研究现状
1.2.1 SEU效应发展
1.2.2 GPU容错技术研究现状
1.3 课题主要工作
1.4 论文的结构安排
第二章 SEU效应和容错技术基本理论
2.1 SEU介绍
2.1.1 SEU产生机制
2.1.2 SEU效应对星载处理器的影响
2.2 容错技术介绍
2.2.1 容软错误的基本原理
2.2.2 硬件容错技术
2.2.3 软件容错技术
2.2.3.1 进程级容错
2.2.3.2 线程级容错
2.2.3.3 指令级容错
2.2.3.4 源代码级容错
2.3 本章小结
第三章 GPGPU体系结构与CUDA编程模型
3.1 统一架构的GPU体系结构
3.2 CUDA编程模型与GPU结构映射
3.2.1 软件体系
3.2.2 CUDA编程模型
3.2.3 CUDA存储模型
3.2.4 GPU结构映射模型
3.3 GPGPU-SIM模拟器与线程执行模式
3.4 本章小结
第四章 星载GPU抗SEU技术研究
4.1 基于TMR-CUDA的GPGPU容错技术分析
4.1.1 基于时间冗余的KERNEL级容错方案
4.1.2 基于多GPU的KERNEL级容错方案
4.1.3 基于VLIW调度器的指令级并行容错方案
4.1.4 基于计算资源的BLOCK级容错方案
4.1.5 基于线程束WARP级容错方案
4.2 比较与投票算法设计
4.3 本章小结
第五章 星载GPU容错性能和可靠性分析
5.1 实验平台设计
5.1.1 实验环境与平台参数设置
5.1.2 基准程序测试
5.2 实验性能分析
5.3 可靠性评估方法研究与结果分析
5.3.1 软件容错方案的可靠性评估模型
5.3.2 故障注入与结果分析
5.4 本章小结
第六章 总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
【参考文献】
相关期刊论文 前4条
1 徐丹妮;贺占庄;;一种基于GPU通用计算的容错方法[J];微电子学与计算机;2014年02期
2 贾佳;杨学军;李志凌;;一种基于冗余线程的GPU多副本容错技术[J];计算机研究与发展;2013年07期
3 徐新海;杨学军;林宇斐;林一松;唐滔;;一种面向CPU-GPU异构系统的容错方法[J];软件学报;2011年10期
4 王长河;单粒子效应对卫星空间运行可靠性影响[J];半导体情报;1998年01期
相关博士学位论文 前2条
1 熊磊;面向程序级的软错误容错研究[D];国防科学技术大学;2012年
2 辛明瑞;面向空间应用的容错RISC处理器体系结构研究[D];西北工业大学;2006年
相关硕士学位论文 前6条
1 邢千里;GPGPU结构研究与性能分析[D];吉林大学;2017年
2 彭小飞;纳米工艺下集成电路的容软错误技术研究[D];合肥工业大学;2015年
3 徐毅;面向软错误的源代码级故障恢复技术研究[D];国防科学技术大学;2015年
4 费亚男;基于动态可重构技术的FPGA中SEU故障容错方法研究[D];哈尔滨工业大学;2013年
5 蔡晶;GPGPU体系结构关键技术论证及模拟器研究与扩展[D];国防科学技术大学;2009年
6 张淑燕;基于嵌入式多核平台的并行冗余线程容错技术研究[D];哈尔滨工业大学;2009年
本文编号:2876617
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/2876617.html