当前位置:主页 > 科技论文 > 计算机论文 >

分片式流处理器数据并行存储系统的设计与实现

发布时间:2020-06-12 06:17
【摘要】: 半导体技术的飞速发展使微处理器的运算能力迅速提升,但访存速度的增长却相对缓慢,“存储墙”问题日益明显。存储系统有限的片外带宽已经成为阻碍程序整体性能提升的瓶颈。分片式流处理器主要面向数据并行应用,这类应用的访存时间通常占据程序整体运行时间的很大比例,同时传统的存储系统结构设计也并不适应这类应用的访存特点,因此这个问题更加严峻。改进访存系统从而减少访存开销对提升分片式流处理器系统的性能非常重要。在片外数据传输峰值带宽固定的情况下,提高片外存储访问带宽的使用效率,减少计算代码的等待时间是提升存储系统性能的关键途径之一。 论文的研究工作着眼于分片式流处理器的数据并行存储系统的分析、设计和实现。主要研究内容和成果包括以下几方面。(1)基于流处理器的数据并行存储系统访存模型、结构特征以及数据并行应用的访存特点,定性地分析了其多级存储层次和计算/访存重叠对隐藏延迟、改善带宽的效果。(2)在模拟实验平台上定量地测试和分析了在不同负载特征下,存储系统的主要设计参数对访存性能的影响。实验表明,对于访存模式敏感的部分参数,需要根据不同应用的并行性和局部性特点来配置它们以改善性能。(3)从提高片外带宽使用率的角度出发,设计和实现了分片式流处理器的数据并行存储系统。该存储系统通过多级调度能有效地减少片外访存的次数,降低片外带宽需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下,通过设计参数的优化选择,该设计能够充分挖掘存储访问的行局部性和体间并行性,提高带宽的使用效率,从而促进整个分片式流处理器系统的性能提升。
【图文】:

处理器体系结构


Merrimac 处理器(Mattan Erez,2006,William J. Dally,,2003)是 Ima处理器的升级版本,它继承了 Imagine 的结构特点,集成了更多的运算簇,同对片上的全局寄存器文件也做了扩容和分布式处理。2.1.2 存储系统的软硬件支持Imagine 处理器针对流应用的特点,在结构上通过三级存储层次和片内高宽支持(Nuwan S. Jayasena,2005),尽量减少对片外存储器的访问,以保证内运算能力的充分利用,同时也在一定程度上减轻长线延迟的影响。图 2.1 的条虚线分别对应了这三级存储层次,LRF 级是运算单元下面的寄存器堆,用于掘指令间的数据局部性,缓存运算簇内部要通信的数据,容量较小带宽最高;级挖掘的是生产者/消费者局部性,容量较大,是一个软件控制的片上存储,果把这个片上存储比作 cache 的话,那么它的命中率就是 100%,它与 Cach构的比较如表 2.1 所示;作为片外存储的 SDRAM 容量比 SRF 更大,但因为受引脚数目约束,访问速度也更慢,在 Imagine 处理器中只有在流数据的输入输

体系结构图,体系结构


片内互联提供了更好的片内带宽,数据从外部存储到达芯片的端能迅速传给需要的 SPE,且多个 SPE 之间可以同时通信而不会相互干扰。CELL 的编程模型也为结构提供了相应的支持,如对 Local Store 的软件管理序员可编程的 DMA 操作。 VIRAM.1 微体系结构概述VIRAM(Vector Intelligent RAM)处理器(J. Gebis,2004,Sourav Chatterji3)是 UC Berkeley 开发的一款嵌入式原形芯片,它针对的目标领域也是媒体应用。不过由于嵌入式设备的特殊性,它在考虑性能之余,还更多考虑了面功耗因素。顾名思义,它的两个结构特点一个是集成了向量处理单元,另一是使用了片上嵌入式的 DRAM,其结构如图 2.3 所示。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP333

【引证文献】

相关硕士学位论文 前1条

1 陈琨;基于层次化存储的高性能数据包缓存机制的研究与实现[D];西安电子科技大学;2012年



本文编号:2709118

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2709118.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dae1b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com