对称多核处理器中Cache一致性的研究与实现
发布时间:2020-05-15 16:48
【摘要】: 多内核的处理器已经是当今时代趋势的必然产物,多内核微处理器的研究开发已经成为世界范围内的热点之一。本文简要介绍了多核处理器的几种主要体系结构和指令集结构。详细论述了Leon3处理器的结构和以其为核心的对称多处理器结构和SPARC指令集。在此基础上引出了数据一致性问题,数据高速缓存的一致性(cache coherence)是解决多内核之间通信的一个重要课题。同时,为了支持多任务和多用户的Linux-smp操作系统,就必须使用虚拟存储技术,虚拟存储器也就成为本文研究的重要内容之一。 本文以Leon3微处理器为内核,深入研究了该内核的结构和指令系统,就虚拟存储器的使用和数据高速缓存的一致性问题进行了详细分析与研究,研究现有的解决数据高速缓存一致性的两种协议,分析了两种具体实现方案的优缺点。在此基础上提出了在数据块对应的高速缓存中存储两个标识(tag)的方法来解决以Leon3为内核的对称多处理器中的数据Cache一致性问题,其中一个是虚拟tag,用于高速缓存正常的读、写操作;另一个是物理tag,用于对总线的监听,保证数据的一致性。 论文最后讲述了设计验证的流程和使用的工具,给出了设计的验证和性能测试结果。经过仿真和把设计下载到FPGA开发板上并运行Linux-smp操作系统,结果证明本设计能够解决数据cache的一致性问题。使用标准小型测试程序dhrystone2.1进行性能测试,结果表明,相对单处理器,双核处理器有近80%的提高,,四核处理器有近160%的提高。在没有优化的条件下,使用DC综合出的频率可达300MHz。该方法实现的Cache读写速度快,硬件代价小,结构相对简单,具有很好的实用价值。
【图文】:
首款基于Cell的服务器,即 BladeCenterQSZO。今年3月65纳米工艺的新的 CellBroadband在IBM位于纽约EastFishkill的工厂投入量产。图1一 1Cen处理器的版图结构在对称多核和非对称多核之外,另一种微处理器结构同样很值得关注,这就是队RROT架构。此架构的提出标志着Intel以后的研究方向发生转变。队RROT出自Intel在以色列海尔法的CPU实验室。早在2003年,该实验室的工程师们公开发表了一篇名为“ powerAwarnessthroughSeleetiveDynamically OPtimizedTraces”(借助选择性动态优化线路实现功耗最优化)的技术论文。该文中,研究者第一次提出“power一 AwareaRehiteetureRunningoptimizedTraee”一词,队RROT架构由此得名。研究人员发现20%的程序代码会占去80%的CPU动态执行资源,这类操作被称为 Hotexecutton(热操作),其余的操作称为“冷操作”。分析“热操作”代码的特点,让“冷操作”和“热操作”分别运行在不同的电路上
前窗口的输入寄存器(ins)就是上一个窗口的输出寄存器(。uts)。寄存器窗口数可以从8到32之间配置,这样总寄存器数最多可达(8+16*32)520个。8个寄存器窗口的结构如图2一3所示。当执行SAVE指令时,就把当前的窗口指针减1,则当前窗口中的输出寄存器(outs)就变成下一个窗口的输入寄存器(ins)。当执行RESTORE指令时则与此相反。这样当发生跳转或调用时,输入输出的数据能够迅速的交换,提高了寄存器的利用率和数据传输速度。局部寄存器是用来存储一些局部变量和常数,只有当前函数可见。而输入输出寄存器是调用函数和被调用函数频繁使用的。当寄存器窗口指针指向一个被屏蔽的或无效的寄存器窗口时,就会产生自陷。这时进入自陷处理程序。典型的处理方式是把此窗口内的数据写入一个堆栈中,然后再使用此窗口中的寄存器。图2一3寄存器窗口2.2.2控制/状态寄存器IU的控制/状态寄存器都是32位读/写寄存器。它们包括:程序计数器PC (ProgramCounters)和npC
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP332
本文编号:2665343
【图文】:
首款基于Cell的服务器,即 BladeCenterQSZO。今年3月65纳米工艺的新的 CellBroadband在IBM位于纽约EastFishkill的工厂投入量产。图1一 1Cen处理器的版图结构在对称多核和非对称多核之外,另一种微处理器结构同样很值得关注,这就是队RROT架构。此架构的提出标志着Intel以后的研究方向发生转变。队RROT出自Intel在以色列海尔法的CPU实验室。早在2003年,该实验室的工程师们公开发表了一篇名为“ powerAwarnessthroughSeleetiveDynamically OPtimizedTraces”(借助选择性动态优化线路实现功耗最优化)的技术论文。该文中,研究者第一次提出“power一 AwareaRehiteetureRunningoptimizedTraee”一词,队RROT架构由此得名。研究人员发现20%的程序代码会占去80%的CPU动态执行资源,这类操作被称为 Hotexecutton(热操作),其余的操作称为“冷操作”。分析“热操作”代码的特点,让“冷操作”和“热操作”分别运行在不同的电路上
前窗口的输入寄存器(ins)就是上一个窗口的输出寄存器(。uts)。寄存器窗口数可以从8到32之间配置,这样总寄存器数最多可达(8+16*32)520个。8个寄存器窗口的结构如图2一3所示。当执行SAVE指令时,就把当前的窗口指针减1,则当前窗口中的输出寄存器(outs)就变成下一个窗口的输入寄存器(ins)。当执行RESTORE指令时则与此相反。这样当发生跳转或调用时,输入输出的数据能够迅速的交换,提高了寄存器的利用率和数据传输速度。局部寄存器是用来存储一些局部变量和常数,只有当前函数可见。而输入输出寄存器是调用函数和被调用函数频繁使用的。当寄存器窗口指针指向一个被屏蔽的或无效的寄存器窗口时,就会产生自陷。这时进入自陷处理程序。典型的处理方式是把此窗口内的数据写入一个堆栈中,然后再使用此窗口中的寄存器。图2一3寄存器窗口2.2.2控制/状态寄存器IU的控制/状态寄存器都是32位读/写寄存器。它们包括:程序计数器PC (ProgramCounters)和npC
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP332
【参考文献】
相关期刊论文 前2条
1 孙昱东,孙强南;并行处理系统的一致性机制研究[J];计算机工程与应用;1997年06期
2 薛燕,樊晓桠,李瑛;多处理机系统中数据Cache的一种优化设计[J];微电子学与计算机;2004年12期
本文编号:2665343
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2665343.html