带冗余核的NoC众核系统容错技术研究
发布时间:2017-12-09 08:24
本文关键词:带冗余核的NoC众核系统容错技术研究
【摘要】:随着芯片特征尺寸的减小和系统复杂度的增加,众核系统的容错问题已不容忽视。处理器核是众核系统中提供处理能力的重要组件。为应对处理器核故障,常用方法是在芯片中设置冗余核。如何以最小代价最大限度减少处理器核故障给众核系统整体性能造成的损失是研究人员当前所面临的严峻挑战之一。众核系统中,处理器核故障不仅会影响芯片的物理拓扑结构,还会影响软件的运行。为保证处理器核故障后系统的可管理性、任务负载的平衡性,减小物理拓扑变化对任务执行的影响,本文以带有冗余核的、基于No C的众核系统为研究对象,从管理结构容错、任务迁移、虚拟拓扑还原与物理拓扑还原4个方面出发,围绕众核系统永久性处理器核故障的容错问题展开研究。论文的主要工作包括:(1)研究众核系统管理结构的容错方法。众核系统发生永久性处理器核故障后,首先需要解决系统如何恢复的问题。众核系统的管理结构是直接负责整个众核系统资源管理的重要结构,只有使管理结构本身具有较强的容错能力,才能使众核系统从故障中自主恢复运行。为增强众核系统管理结构的故障适应能力,本文研究一种角色可变的容错管理方法。该方法根据典型的层次化管理方式,采用一种角色可转变的管理结构,基于该结构提出相互监视、自适应管理、选举和自唤醒4种机制,使各核心都具有自主判断和构建管理结构的能力。实验表明,该方法能够保证管理结构容忍各种分布的处理器核故障;在每个核增加20K字节ROM开销与35.6K字节RAM开销情况下,众核系统能够在各种故障情况下成功重构管理结构,维持运行;在系统正常运行时,该方法仅引入1.48%的计算开销。(2)研究面向负载平衡的任务迁移算法。众核系统恢复管理以后,故障核上的任务需要迁移到其他无故障核上继续运行。而寻找最优任务迁移终点的问题本质上属于任务分配问题,是NP完全问题,很难在短时间内求得最优解。为能够在较短时间内得到一种满意的负载平衡的任务迁移方案,本文对标准遗传算法进行了改进,研究一种自适应交叉An混沌映射扰动的遗传迁移算法。该算法将标准遗传算法中的固定交叉率修改为自适应交叉率加快算法收敛速度,并通过随进化代数递减的交叉点数选取方法来缓解算法早熟问题和平衡算法前后期的搜索速度。此外,为进一步提高算法的局部搜索能力,该算法利用An混沌映射对每代中的最优个体施加扰动。实验表明,本文改进算法在适应度和标准差方面较标准遗传算法平均提升33.9%和27.1%,算法寻优过程优于标准遗传算法。与其他4种算法相比,本文算法能够产生更加平衡的任务分布,有利于缓解芯片中局部温度过高的问题,也有利于芯片整体的均匀老化。(3)研究虚拟拓扑重配置容错方法。永久性处理器核故障将导致众核系统物理拓扑结构发生变化。为减小物理拓扑变化给传统2D mesh No C众核系统带来的性能损失、缩短系统故障恢复时间,本文研究一种适用于众核系统的、面向虚拟拓扑还原的快速两步拓扑重配置算法。该算法关注映射方案DF值与算法的计算复杂度,通过定义映射区域并采用匈牙利算法求解最大匹配问题,快速得到初始映射解;通过约束交错映射情况缩小禁忌搜索的搜索范围,在初始映射解基础上快速优化,得到最终映射方案。此外,还利用本文算法对前期提出的消息传递模型中的虚拟拓扑层进行扩展。实验结果表明,本文算法具有较低的容错时间开销;当故障位置随机分布时,本文算法在DF值的优化效果上较参考算法平均提升5.81%;而当故障位置集中分布时,该提升比达到了15.40%,对故障的分布具有较强的适应能力。(4)研究物理拓扑重配置容错方法。虽然虚拟拓扑技术可缓解物理拓扑变化对上层软件的影响,但在传统2D mesh No C众核系统中仅依靠虚拟拓扑技术并不能保证系统性能的完全恢复。针对该问题,本文首先在传统2D mesh No C结构基础上增加了路由器和多路选择器,研究一种物理拓扑可还原的可重配置2D mesh互连结构;然后针对该结构研究一种拓扑重配置算法以寻找有效的拓扑重配置方案。该算法通过每次找到的局部最优解来逐步逼近全局最优解,并在一定条件下修改初始解并重新搜索。实验表明,采用本文结构的Intel 80核芯片总面积仅增加约3.8%;对于工作网络规模不超过12×12的带有单列冗余核和单行单列冗余核的众核系统,当故障核总数分别不超过核心总数的5.1%和7.7%时,本文算法可获得90%以上的重配置成功率。为完全恢复系统性能提供了一种低面积开销的解决思路。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP332;TP18
,
本文编号:1269722
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1269722.html