多核结构下片内存储系统的模型模拟技术研究
发布时间:2020-07-14 10:52
【摘要】:多核(CMP)处理器的流行以及集成电路制造工艺的发展使得存储系统的设计面临空前的压力。如何更好的支持多个处理器核对存储器的并发访问,同时有效降低纳米级工艺下芯片内部的线延迟及功耗,是今后相当长的一段时期内片上缓存系统有待解决的主要难题。 片上缓存系统面临的困境给作为处理器设计中重要组成部分的体系结构模拟技术提出了新的挑战。现有的各种体系结构模拟器缺乏对CMP结构片上缓存的有效分析和性能模拟。对于片上缓存在延迟、功耗方面的动态模拟,现有的模型还不够深入细致。针对这些问题,本文对CMP结构下片上缓存系统的模型模拟进行了研究,并设计了CMP结构片上缓存性能模型和多尺度模型。 本文所描述的片上缓存性能模型针对FT系列多核处理器的模拟需求,能够完成针对片上缓存系统的体系结构级性能模拟。CMP结构相比于传统单核超标量处理器在片上缓存系统的规模和复杂性上都大大增加,因此缓存性能模型的设计中也涵盖了缓存模块、缓存控制模块、一致性协议等诸多部分。尽量细致而真实的反应缓存的行为特征、使用高效的数据结构和算法、采用模块化的设计并且提供可扩展能力,这些设计思想在模型中被充分的尊重并加以利用。为了验证模型的正确性和可用性,本文利用SPEC2000标准测试程序进行了模拟执行,模拟实验的结果同时也显示了体系结构模拟技术本身的优势,即方便、快捷地显示各种结构参数对于目标系统性能的影响。 近年来的许多研究表明,在微体系结构级进行芯片面积、延迟、功耗等指标的优化与电路级相比具有更大的挖掘空间。基于此,本文在研究片上缓存系统的性能模型的同时,参考CACTI和Wattch模型的设计方法,创建了缓存的多尺度模型。作为链接结构模型和底层电路实现与工艺的开放平台,多尺度模型能够依据不同的工艺标准以及结构参数对缓存的面积、延迟、功耗进行快捷而有效地估算。通过进一步与性能模型相结合,多尺度模型可以真实地模拟程序执行过程中片上缓存延迟、功耗指标的动态数值。 初步的研究表明,本文所阐述的片上缓存性能模型和多尺度模型能够较好的完成CMP体系结构下对于片上缓存的各种模拟,在相关的科研以及工程领域发挥一定作用。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP332
【图文】:
图2.4 GEMS 模拟器的组成结构北京航空航天大学计算机学院的研究工作针对 Cache 模拟技术。他们在分析了现有的 cache 模拟加速技术的基础上提出了一种适合共享存储计算机上运行的cache 模拟加速方法[44],通过复用缓存的访存请求读取过程和并行地对不同配置的多组 cache 系统进行模拟,取得了较高的模拟加速效果。2.3 多尺度模型模拟随着集成电路工艺水平和微处理器体系结构技术的不断进步,人们在设计微处理器的过程中,更加注重对传统体系结构指标以外的诸如访问延迟、芯片面积、功耗等指标的要求。尤其是当集成电路制造工艺进入纳米级以后,芯片的微型化、线延迟的影响凸显、晶体管密度过高导致的高功耗、由漏流引发的静态功耗显著上升等等一系列问题成为困扰处理器体系结构设计人员的新难题。如 1.3 小节中曾经谈到的,传统的处理器微体系结构设计一般只以提高性能为目标,而低功耗往往是逻辑设计和电路设计所考虑的因素。不过,近年来的许多研究表明,微体系结构的设计对处理器的功耗有重要的影响,在微体系结构级进
阐述 cache 的组成,为避免唐突,这里不妨先从比较熟悉也易于理解的体系结构级的角度入手来回顾 cache 的内部结构。图4.1 微处理器中的 cache 结构图 4.1[51]是典型的微处理器中的 cache 结构。这块数据 cache 的容量为 64KB,块大小为 64 字节,采用 2 路组相联映射方式。因此从图中可以看到物理地址的最
显示了理论模型中 cache 的内部结构。图4.2 理论模型中的 cache 内部结构Cache 中占绝大部分面积的是数据存储队列(Data Array,以下简称数据队列)和标志字段存储队列(Tag Array,以下简称标志队列),这两个区域由众多的存储单元(memory cell)构成,分别保存着来自主存的数据和这些数据相应地址中的标志字段。这些存储单元以矩阵的方式排列,在横向上形成诸多排,每一排称为一条字线(wordline);在纵向上构成诸多列,每一列称为一条位线(bitline)。一个存储单元就是一条字线和一对位线的交点(这里需要说明的是,与一个存储单元在纵向上相连的不是一条位线,而是一对,下文将阐述其原因)。当访存地址进入 cache 后
本文编号:2754874
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP332
【图文】:
图2.4 GEMS 模拟器的组成结构北京航空航天大学计算机学院的研究工作针对 Cache 模拟技术。他们在分析了现有的 cache 模拟加速技术的基础上提出了一种适合共享存储计算机上运行的cache 模拟加速方法[44],通过复用缓存的访存请求读取过程和并行地对不同配置的多组 cache 系统进行模拟,取得了较高的模拟加速效果。2.3 多尺度模型模拟随着集成电路工艺水平和微处理器体系结构技术的不断进步,人们在设计微处理器的过程中,更加注重对传统体系结构指标以外的诸如访问延迟、芯片面积、功耗等指标的要求。尤其是当集成电路制造工艺进入纳米级以后,芯片的微型化、线延迟的影响凸显、晶体管密度过高导致的高功耗、由漏流引发的静态功耗显著上升等等一系列问题成为困扰处理器体系结构设计人员的新难题。如 1.3 小节中曾经谈到的,传统的处理器微体系结构设计一般只以提高性能为目标,而低功耗往往是逻辑设计和电路设计所考虑的因素。不过,近年来的许多研究表明,微体系结构的设计对处理器的功耗有重要的影响,在微体系结构级进
阐述 cache 的组成,为避免唐突,这里不妨先从比较熟悉也易于理解的体系结构级的角度入手来回顾 cache 的内部结构。图4.1 微处理器中的 cache 结构图 4.1[51]是典型的微处理器中的 cache 结构。这块数据 cache 的容量为 64KB,块大小为 64 字节,采用 2 路组相联映射方式。因此从图中可以看到物理地址的最
显示了理论模型中 cache 的内部结构。图4.2 理论模型中的 cache 内部结构Cache 中占绝大部分面积的是数据存储队列(Data Array,以下简称数据队列)和标志字段存储队列(Tag Array,以下简称标志队列),这两个区域由众多的存储单元(memory cell)构成,分别保存着来自主存的数据和这些数据相应地址中的标志字段。这些存储单元以矩阵的方式排列,在横向上形成诸多排,每一排称为一条字线(wordline);在纵向上构成诸多列,每一列称为一条位线(bitline)。一个存储单元就是一条字线和一对位线的交点(这里需要说明的是,与一个存储单元在纵向上相连的不是一条位线,而是一对,下文将阐述其原因)。当访存地址进入 cache 后
【引证文献】
相关硕士学位论文 前1条
1 王丹;CMP上结合bank一致性技术的NUCA任意步长数据提升技术[D];吉林大学;2012年
本文编号:2754874
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2754874.html