阵列处理器分布式Cache的局部优先访问结构设计

发布时间：2021-09-07 10:11

　　针对可重构阵列处理器访存数据量大、数据并行性要求高且数据全局重用少、局部性明显的特点,提出了一种分布式Cache结构的簇内局部优先高效互连访问结构,该结构实现了簇内4×4个PE对4×4个Cache的并行访问,选用Xilinx公司的ZYNQ系列芯片XC7Z045 FFG900-2进行FPGA综合。在无冲突情况下,该互连结构支持簇内16个PE的同时读/写访问,最高频率可达221 MHz,访存峰值带宽为7.6 GB/s。在此结构上实现了灰度共生矩阵提取纹理图像特征算法,数据访存带宽达到478.125 MB/s,运行时间为0.24 ms。

【文章来源】：计算机工程与科学. 2020,42(04)北大核心CSCD

【文章页数】：8 页

【部分图文】：

不同行访问不同行

内分,区域

从PE角度看,该分布式Cache结构中每个PE可以直接访问片上所有区域Cache,是片上共享Cache结构;物理实现上,采用4×4个独立的Cache块,通过簇内存储结构实现LA区域优先访问,RA区域次之的优先策略,同时利用多个Cache块的并行存储技术,实现簇内4×4个PE的并行访问。当PE访问Cache时,簇内访问结构接受来自PE的请求,根据地址判断是对LA区域Cache进行访问还是RA区域Cache进行访问,当PE访问LA区域Cache时,优先级最高,当PE访问RA区域Cache时,需通过簇内访问结构仲裁出正确的响应顺序完成对RA区域Cache的操作。一旦命中簇内Cache,立即将数据返回给请求PE,若不命中,则需要通过轮询仲裁器仲裁出一路信号通过虚通道路由器VCR0901与外存进行通信。本文设计的簇内访问结构LPAS用于处理全局重用少、局部性明显的视频图像多媒体数据时,通过在簇内配置数据访问指令ST把PE最先访问或经常访问的数据放在LA的Cache中或较近距离RA的Cache中,把PE最后访问的数据或不常访问的数据放在离PE较远位置RA的Cache中,这样对于经常访问的数据可以节省访问较远路径所耗费的时间,同时,减少资源的消耗,提高访存速度,提升并行访问带宽。同时,该设计硬件开销小,并行访问性高,可大大提高可重构阵列处理器的访存带宽;在应对大数据时代人工智能、计算机视觉等新兴应用所要求的高实时性、高并行性以及灵活性时表现出了较好的优势。

阵列处理器分布式Cache的局部优先访问结构设计

簇内局部优先访问结构

【参考文献】：
期刊论文
[1]阵列处理器分布式存储的簇内全访问结构设计[J]. 蒋林,刘鹏,山蕊,刘阳.  西安科技大学学报. 2018(04)
[2]可重构视频阵列处理器簇内存储结构设计与实现[J]. 郭佳乐,蒋林,山蕊,崔朋飞,武鑫.  微电子学与计算机. 2017(09)
[3]面向X86多核处理器的数据流程序任务调度与缓存优化[J]. 唐九飞,李鹤,于俊清.  中国科学技术大学学报. 2016(03)

本文编号：3389358

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3389358.html

上一篇：铁路叫班系统控制主机的设计与实现
下一篇：基于聚合物全息光盘的体全息存储演示仪

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|