众核处理器自适应容错技术研究
本文关键词:众核处理器自适应容错技术研究
更多相关文章: 容错 众核处理器 自适应 低开销 错误率变动 检查点
【摘要】:随着半导体器件工艺的持续缩小,处理器面临着更严峻的错误威胁,包括软错误、硬件磨损、工艺变动等。这使得原来不需要考虑容错的非关键领域的应用也面临错误的威胁。众核处理器比多核处理器能提供更高的性能和更低的功耗密度,因此它的开发和应用日益广泛。众核处理器的结构和多核有很大差别:每个核相对简单且通常不使用前瞻执行或分支预测等技术;互联方式主要是片上网络而不是总线;硬件Cache的一致性难以保证而主要使用软件Cache或局部存储;操作系统通常只运行在控制核上而不是每个核等等。这些导致众核处理器的容错技术与多核有很大不同,研究适合众核处理器的低开销容错技术很有必要。众核处理器适合计算密集的应用而不太适合控制密集的应用。目前它在可靠性要求很高的关键领域如航天、能源等使用的还较少,所以本文主要面向通常领域研究容错技术。通常领域应用的容错对开销极为敏感,难以承受传统容错方式的开销,如三模冗余甚至是双模冗余。众核处理器容错存在很多变动因素。处理器集成了成百上千个核通常会同时运行多个应用,但是各个应用对容错的需求不同。受限于应用本身的并行性,众核处理器的计算效率通常较低且会随着应用的运行发生变化。芯片的错误率受温度、电压、主频等操作环境影响较大,随着操作环境的变化芯片的错误率也会变化。着眼于通常领域的众核处理器的容错特征,本文提出了自适应容错技术,它根据应用的容错需求、处理器的计算效率、芯片的错误率等动态地调整容错方式从而降低容错开销。本文的主要研究工作和创新点如下:1.针对大多数冗余技术硬件开销较大的问题,提出了在众核处理器上动态耦合容错对的轻量级冗余技术,并通过软硬件协同提高错误检测和错误恢复的性能。冗余对是两个执行相同程序的处理器核,冗余对通过比较执行结果检测错误。通常的技冗余技术为了加速冗余对的性能会修改处理器的系统结构和添加较多硬件。本文面向通常领域应用提出在不修改系统结构和只添加少量硬件的前提下利用处理器本身的资源构建冗余对的轻量级冗余技术,它可以将处理器上任意两个核耦合为冗余对。本文划分容错任务为错误检测和错误恢复,借助软硬件协同方式降低冗余执行的开销。使用硬件进行计算结果的比对,它在增加少量硬件的情况下能极大地降低错误检测延迟和失效率。通过软硬件协同对检查点的状态保存进行延迟隐藏,它减少了检查点保存的开销,提高了容错执行的性能。2.针对异常检测技术错误覆盖范围小的问题,提出一种面向众核执行特征的核间异常检错方法,并通过动态混合DMR(双模冗余)技术进一步提高异常检错的错误覆盖率。异常检错是通过检测处理器的异常行为如指令计算溢出、地址访问越界、死循环等进行错误检测的技术,它不需要重复执行程序因而开销极小。通常的研究将处理器“极小概率发生的行为”当做异常,而本文提出将处理器核间的“行为差异”当做异常,这极大地扩展了异常覆盖的范围。本文通过比对执行同一个应用的各个处理器核之间的行为差异(如指令执行数、访存频率等)来区分异常行为。这可以极大的提高发现错误和降低误判的可能性,能将错误覆盖率提高到接近90%。由于不同程序的对错误的敏感程度不同,众核系统在执行不同程序时系统的错误率也可能不同。为了进一步提高错误的覆盖率,本文提出在错误率较高时使用DMR进行检错的混合异常检错技术。它能够以较低的开销提升较高的错误覆盖率。3.针对全冗余导致芯片吞吐率减半的问题,提出了一种可按应用容错需求配置冗余比例的冗余技术,并通过动态调度冗余核进一步提高芯片的吞吐率。通常的容错都是对所有应用冗余的全系统容错,这会造成芯片的吞吐率减半。本文根据应用的容错需求只为需要容错的应用提供容错,这可以降低冗余执行的比例,在容错需求较小时芯片的吞吐率下降非常小。冗余执行通常使用两个核执行同一个程序,我们将其中一个负责输入输出的核称为容错主核,另一个称为冗余核。通常双模冗余的冗余核的数量等于容错主核的数量,本文提出当主核吞吐率较低时用较少的冗余核为较多的主核容错,这可以降低冗余核的数量,特别是当容错需求较大时可极大提高芯片的吞吐率。4.针对固定检查点技术在错误率变动时开销较大的问题,提出根据系统错误率调整检查点间隔的自适应检查点技术。检查点是系统容错的主要机制,检查点的开销和检查点的间隔密切相关,目前检查点间隔的确定都是基于恒定错误率的。而在错误率变动的情况下,自适应检查点通过预测系统的错误率从而确保系统的检查点间隔始终接近最优状态,相比固定方法它能够显著降低检查点的开销。但是自适应方法所能获得的性能收益与错误变动的具体程度相关。因此本文基于系统的温度、电压、位置等因素对错误率的影响原理,建立了一个错误率变动的模型(它包括变动幅度、变动持续时间等);基于错误变动模型,从理论上研究了各种形式的错误变动对自适应检查点的影响方式、影响幅度;提出了一种基于系统错误历史预测错误率的方法,验证了在实际情况下自适应检查点能够达到的性能收益。本文根据通常领域应用在众核处理器上容错的特性,提出动态地适应应用的容错需求、处理器的计算效率和系统的错误率等多种自适应容错技术。这些容错技术可以极大地降低众核处理器容错的开销,具有较大的现实意义。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP332
【相似文献】
中国期刊全文数据库 前10条
1 邓彬伟;黄松柏;;浅谈嵌入式处理器体系结构[J];山西电子技术;2007年04期
2 陶品;;嵌入式系统——第二讲 百花齐放的嵌入式处理器[J];世界电子元器件;2006年03期
3 李超;张美琳;杨旭;徐勇军;骆祖莹;;安全处理器体系结构的现状与展望[J];小型微型计算机系统;2011年10期
4 王恩东;秦济龙;;处理器互联体系结构的一些特点分析[J];科学技术与工程;2011年30期
5 余卫东;MMX技术[J];电脑知识;1997年03期
6 Dipl.-Ing.Alexander Sch銉der;;嵌入式处理器解决车载多媒体系统中的设计难题[J];世界电子元器件;2007年12期
7 C.A.(Al)Dennis ,陈瑞源 ,力康;公用信号处理器的应用和设计[J];系统工程与电子技术;1987年06期
8 张健;奔腾Ⅱ、奔腾Ⅱ至强、赛扬处理器各司其职[J];电脑技术;1998年09期
9 Robert Cravotta;;可配置处理器应用日趋红火[J];电子设计技术;2003年11期
10 刘磊;邹候文;唐屹;;一种可编程安全处理器体系结构的研究与实现[J];广州大学学报(自然科学版);2006年04期
中国重要会议论文全文数据库 前3条
1 宋绯;刘晓宁;;DSP/MCU结构的新型处理器[A];第九届全国青年通信学术会议论文集[C];2004年
2 赵秋平;杨灿群;王锋;;LBM算法在Cell处理器上的实现和优化[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 ;处理器上演多核大戏[N];计算机世界;2005年
2 心元;PC“心脏”的搏击[N];计算机世界;2004年
3 清华大学微处理器与SoC技 术研究中心 王海霞 汪东升;颠覆传统理念[N];计算机世界;2005年
4 清华大学微处理器与SoC技术研究 中心 汪东升 王海霞 张悠慧 李兆麟;CMP 开启处理器效能时代[N];计算机世界;2005年
5 江苏 netfan;体现速度与性能[N];电脑报;2004年
6 四川 王毅;变革进行时[N];电脑报;2004年
7 清华大学微处理器与SoC技术研究中心 汪东升;多核技术天地广阔[N];计算机世界;2006年
8 本报记者 李献 王皓;2002年服务器四大景观[N];计算机世界;2003年
9 ;MontaVista Linux 2.1跨平台[N];中国计算机报;2002年
10 ;CPU技术进步牛气冲天[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 吴臻志;多标准高性能前向纠错码处理器[D];北京理工大学;2015年
2 刘晓楠;面向国产处理器的二进制翻译关键技术研究[D];解放军信息工程大学;2014年
3 李战辉;二进制转译加速方法及其在低电压处理器中的应用研究[D];浙江大学;2016年
4 高军;CAMPER:一种高效能处理器核体系结构关键技术研究与实现[D];国防科学技术大学;2014年
5 贾文涛;众核处理器自适应容错技术研究[D];国防科学技术大学;2016年
6 魏继增;可配置可扩展处理器关键问题研究[D];天津大学;2010年
7 霍文捷;嵌入式处理器安全运行机制的研究与设计[D];华中科技大学;2010年
8 从明;类数据流驱动的分片式处理器体系结构[D];中国科学技术大学;2009年
9 徐光;分片式流处理器体系结构[D];中国科学技术大学;2010年
10 李勇;异步数据触发微处理器体系结构关键技术研究与实现[D];国防科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 梁彦;可配置的众核结构验证系统的研究与实现[D];中国科学院大学(工程管理与信息技术学院);2015年
2 张艳;面向通信算法的处理器核功能部件的设计和实现[D];国防科学技术大学;2014年
3 曹金阳;猜测并行多核体系结构模拟环境研究与实现[D];国防科学技术大学;2013年
4 范孟秋;基于LISA的专用指令集处理器汇编工具链的研究与实现[D];南开大学;2015年
5 侯泽君;OpenSPARC T1处理器的存储机制研究及验证[D];合肥工业大学;2016年
6 陆秋文;基于众核处理器的工控网络入侵检测系统体系架构研究[D];北京化工大学;2016年
7 李海玉;异构处理器程序静态划分方法的研究与实现[D];东北大学;2013年
8 刘潇潇;《第七代智能英特尔(?)处理器版本更新说明》(节选)翻译实践报告[D];天津理工大学;2017年
9 曾斌;分片式处理器体系结构上的超块优化技术[D];中国科学技术大学;2009年
10 黄冕;X处理器存储一致性模型的研究与实现[D];国防科学技术大学;2008年
,本文编号:1275762
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1275762.html