流体系结构指令管理及系统虚拟化仿真技术研究

发布时间：2020-06-11 22:05

【摘要】：VLSI技术的迅猛发展和计算密集型应用的不断涌现,驱动计算机体系结构不断革新,高性能可扩展的并行体系结构成为学术界和工业界关注的焦点。流体系结构以结构简单、芯片资源利用率高、并行计算能力强、可扩展性好等显著优势,逐渐成为未来并行体系结构的一个重要分支。新兴流处理器如Imagine、Merrimac、FT64、MASA、Cell、NVIDIA G80、Storm DSP、Tiles64等,都得到了广泛的关注。随着对流体系结构研究的不断深入,一些新的问题不断产生,如流体系结构片上指令存储器利用率不高、单一的SIMD执行模式对流应用领域的限制、流体系结构不断扩展带来的仿真成本和仿真速度之间的矛盾等问题。在这样的背景下,作者选择了“流体系结构指令管理及系统虚拟化仿真技术研究”作为论文课题。本文对流体系结构进行了深入系统的研究,研究的内容涉及kernel指令码分析、指令存储器设计、流体系结构执行模式、基于FPGA的流体系结构仿真系统优化等关键领域。本文的工作和创新主要体现在: 1.提出了一种提高流体系结构片上指令存储器利用率的解决方案——基于kernel热代码管理的指令存储器。本文建立了Kernel-SPM模型,从kernel特征分析出发,定义了kernel热代码,并提出了kernel热代码定理和kernel热代码的查找方法。根据kernel热代码的特征,本文提出了kernel热代码和kernel凉代码分别管理的kernel指令管理策略,并构建了基于kernel热代码优化的软件管理指令存储器和软硬件混合管理指令存储器。实验表明,在合适的配置下,两种存储结构都能有效的降低片上指令存储器的面积开销,且对程序的性能影响较小。 2.提出了VLIW分域压缩技术,设计并实现了流体系结构全分布式指令存储器。本文首先通过对一系列典型流应用的测试分析,量化了VLIW各子域的空操作比例。针对于流应用中VLIW稀疏问题,提出了VLIW分域压缩技术,设计了流体系结构全分布式指令存储器,并提出了流体系结构SIMD流水执行模式。实验证明,分域压缩技术与全分布式指令存储器结合,能有效的减少流体系结构中指令码对片上指令存储空间和存储带宽的需求。 3.提出了流处理器多态技术,并完成了流体系结构SIMD流水态、MIMD态和分布式流寄存器文件的设计实现。本文首先分析了SIMD执行模式对流体系结构应用领域扩展的限制,然后针对于流应用中流呈现出的多态性,提出了多态流体系结构,扩展了经典流体系结构中单一的SIMD执行模式,引入了SIMD流水态和MIMD态,设计了相应的分布式流寄存器文件,并研究了多态流体系结构编程接口等问题。实验表明,多态流体系结构不仅兼容了经典流体系结构的执行模式,而且能更好满足新型流应用的需求。 4.提出了系统虚拟化仿真技术,设计并实现了MASA流体系结构虚拟仿真平台。本文提出了系统虚拟化仿真模型,包括虚拟计算页仿真模型、存储页旋转模型以及簇内功能配置模型,并提出了虚拟仿真系统的设计方法。本文构建并分析了MASA流体系结构虚拟仿真平台,实验表明,系统虚拟化仿真模型能有效的降低流处理器仿真系统对FPGA资源的需求,且其带来的仿真时间增量是可接受的。另外,本文进一步扩展了系统虚拟化仿真模型,提出了适用于SIMD体系结构的多频时钟耦合虚拟仿真技术和对称多核体系结构虚拟仿真模型。实验表明,系统虚拟化仿真技术不仅适用于流体系结构,而且能在SIMD、对称多核等对称体系结构仿真中有效的减少仿真系统资源消耗,增大可仿真系统的规模。
【图文】：

应用领域

（d）二维相关矩阵：流场（e）高速图像变换与目标识别（f）生物计算：分子动力学图 1.1 计算密集型应用领域大量的数据级并行。应用程序中数据处理过程中相互间的依赖度很低，且通常核心程序需要在大量的数据集合上执行相同的操作，这使得大量的数据可以被同时处理。如流体力学中解恒定流场的偏微分方程时，各个通量可以并行处理，每个通量的各个节点数据也可以被并行处理。另外，在媒体应用中，存在大量 8bit、16bit 等低精度类型的数据，为了节省硬件开销，多个低精度的数据通常被合成一个高精度的数据同时处理，这种子字并行的方式[10]也成为数据级并行的另一种体现。数据级并行要求处理器具有高效的开发数据级并行性的硬件机制。生产者-消费者局域性。数据访问具有典型的流式特征，即一个计算核心产生的运算结果将作为后续核心的输入数据集。与传统应用中存在的时间和空间局域性不同，生产者-消费者数据局域性不符合 LRU (Least RecentlyUsed)规则，因此，Cache 不能有效的利用该数据访问特性，甚至可能阻碍系统性能的提升[11]。生产者-消费者局域性要求处理器具有合理的存储层

趋势图,半导体生产工艺,趋势

国防科学技术大学研究生院博士学位论文长。随着芯片上可集成的晶体管数目呈指数级增长，截至目前，半导体工备单片集成数十亿支晶体管的能力[14]，例如 Intel 公司推出的下一代 Itanium器(Tukwila)将集成 20 亿支晶体管[15]。并且根据国际半导体技术路线机构(ITernational Technology Roadmap for Semiconductors)[16]2009 年预测，2016 年以处理器芯片集成的晶体管数目将接近百亿，如图 1.2[16]所示。半导体工艺的动微处理器进入十亿支晶体管体系结构(BTAs: Billion-Transistor Architectur代，为系统设计者提供了大量的硬件资源用于构建更高性能处理芯片，也处理器体系结构设计带来了新的机遇与挑战。日益增加的晶体管资源给处理器提供了广阔的发展空间，，但随着处理器断增大，芯片设计和验证将变得日益复杂，面对这些问题，未来的处理器构将更偏向于结构上的层次化和功能上的模块化与分布化的设计理念[14]。因称多核、众核以及 clustered 等体系结构被广泛关注。它们采用资源复制的方仅能更有效的利用芯片上的晶体管资源，而且其规模可根据应用的性能需扩展，更有利于提高处理器性能。
【学位授予单位】：国防科学技术大学
【学位级别】：博士
【学位授予年份】：2010
【分类号】：TP332

【参考文献】