一种支持优化分块策略的矩阵乘加速器设计
本文关键词:一种支持优化分块策略的矩阵乘加速器设计
【摘要】:在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。
【作者单位】: 国防科学技术大学计算机学院;
【关键词】: FPGA 非均匀矩阵 矩阵乘法 分块策略
【基金】:国家863计划(2012AA012706) 国家自然科学基金(61272145)
【分类号】:TP332.22
【正文快照】: 1引言随着半导体制造工艺的发展以及集成电路技术的进步,单芯片上集成了越来越多的晶体管,当前FPGA芯片提供了专用的算术模块、大量的逻辑资源和存储资源,以及外部存储器接口、网络接口、外围接口等,已成为加速应用的一种重要方式[1]。浮点矩阵乘运算广泛存在于现代应用中,如
【相似文献】
中国期刊全文数据库 前8条
1 纪坤;陈建平;石振国;刘维富;;矩阵三角分解分块算法的研究与实现[J];计算机应用与软件;2010年09期
2 钟声伟;关于诊断G矩阵分块独立处理的探讨[J];长安大学学报(自然科学版);1993年04期
3 杜伟章,任春丽;关于“逆p.n.p.矩阵的表征”的注记[J];西安电子科技大学学报;1996年04期
4 冯健;倪明;赵建波;;一种基于分布式平台Hadoop的矩阵相乘算法[J];计算机系统应用;2013年12期
5 迟学斌;分布式系统矩阵并行计算[J];数值计算与计算机应用;1997年04期
6 吴飞;金士尧;;并行优化矩阵运算的探索[J];计算机工程与科学;1992年02期
7 张会凌;命题逻辑判定系统中基本真值矩阵的生成算法[J];甘肃联合大学学报(自然科学版);2005年01期
8 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 支希哲;孟光;顾致平;;稳定性判定阵的分块确定法[A];1995中国控制与决策学术年会论文集[C];1995年
2 吴柏生;李正光;;结构布局修改的重分析方法[A];第九届全国结构工程学术会议论文集第Ⅱ卷[C];2000年
中国博士学位论文全文数据库 前3条
1 黄泽军;关于矩阵组合分析性质的若干结果[D];华东师范大学;2011年
2 沈长鹏;订单结构与拣选系统的适配问题研究[D];山东大学;2011年
3 申淑谦;特殊矩阵数值分析和鞍点问题迭代求解预处理技术[D];电子科技大学;2008年
中国硕士学位论文全文数据库 前9条
1 陈磊;面向多核DSP的高性能并行BLAS3的设计与实现[D];国防科学技术大学;2013年
2 曾侃圢;基于电阻矩阵定位原理的溃坝模型试验测量技术研究[D];重庆交通大学;2015年
3 刘真;基于用户评分矩阵分块的鲁棒推荐模型研究[D];燕山大学;2013年
4 黄荣;几类分块组合选取因子法的非奇H-矩阵判定[D];湘潭大学;2005年
5 符和满;符号空间一类稠密混沌系统的矩阵刻画[D];华南师范大学;2005年
6 楼Z蟍;M-矩阵等特殊矩阵及其特殊积[D];陕西师范大学;2004年
7 杜翠真;五阶完全正矩阵[D];安徽大学;2005年
8 陈一昭;并行计算在矩阵运算中的应用[D];昆明理工大学;2011年
9 张晓青;关于SDD~+矩阵和H-矩阵算法的研究[D];电子科技大学;2006年
,本文编号:853941
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/853941.html