异构混合并行计算综述
发布时间:2021-06-21 19:37
随着人工智能和大数据等计算机应用对算力需求的迅猛增长以及应用场景的多样化,异构混合并行计算成为了研究的重点。文中介绍了当前主要的异构计算机体系结构,包括CPU/协处理器、CPU/众核处理器、CPU/ASCI和CPU/FPGA等;简述了异构混合并行编程模型随着各类异构混合结构的发展而做出的改变,异构混合并行编程模型可以是对现有的一种语言进行改造和重新实现,或者是现有异构编程语言的扩展,或者是使用指导性语句异构编程,或者是容器模式协同编程。分析表明,异构混合并行计算架构会进一步加强对AI的支持,同时也会增强软件的通用性。文中还回顾了异构混合并行计算中的关键技术,包括异构处理器之间的并行任务划分、任务映射、数据通信、数据访问,以及异构协同的并行同步和异构资源的流水线并行等。根据这些关键技术,文中指出了异构混合并行计算面临的挑战,如编程困难、移植困难、数据通信开销大、数据访问复杂、并行控制复杂以及资源负载不均衡等。最后分析了异构混合并行计算面临的挑战,指出目前关键的核心技术需要从通用与AI专用异构计算的融合、异构架构的无缝移植、统一编程模型、存算一体化、智能化任务划分和分配等方面进行突破。
【文章来源】:计算机科学. 2020,47(08)北大核心CSCD
【文章页数】:13 页
【部分图文】:
协处理器架构
ARM微处理器可支持多达16个协处理器,这些协处理器可用于各种协处理操作,在程序执行过程中,每个协处理器只执行针对自身的协处理指令。ARM的协处理器指令主要用于ARM处理器初始化、ARM的协处理器的数据处理操作,以及在ARM的处理器的寄存器和ARM协处理器的寄存器之间传送数据,在ARM协处理器的寄存器和存储器之间传送数据。ARM的协处理器架构如图2所示。Hinds等[4]提出了一种用于嵌入式信号处理和图形应用的浮点协处理器,其可以改善关键部分的信号处理单元上的性能。Sohn等[5]设计了一个基于ARM-10的定点多媒体协处理器,其通过采用双操作的定点协同处理器结构,在单一硬件中实现了低功耗的先进三维图形算法和各种流媒体的多媒体功能。1.2 CPU+众核处理器
Intel公司也推出了众核的处理器MIC芯片,其处理核心数目为50~64。第二代Intel Xeon Phi多核处理器拥有60多个核,如在Intel Xeon Phi 7250 KNL处理器中已经有68个核心[14]。与GPGPU相比,MIC芯片的核心数目较少,但是单个核心的处理能力较强,每个核心能够独立调度,属于重核心;而GPGPU的核心往往公用一些指令部件,不能独立调度,属于轻核心。在Xeon Phi的x86核心设计中,每个内核可以执行4个同步线程,但是在理想情况下,每次只能处理其中的2条线程。Xeon Phi属于顺序执行处理器,没有任何乱序执行能力。Xeon Phi的x86核心内部实际上是双发射设计,指令经过解码单元解码后会进入0号管线或者1号管线,然后会被送入其所需要的单元进行处理。Xeon Phi的VPU中包含的矢量ALU可以高效率地执行16 wide×32 bit的数据或者8 wide×64 bit的数据。除了VPU单元外,Intel还特别加入了x87浮点单元来对一些特殊的浮点数据进行处理;为每个x86核心配备了32 kB的L1数据缓存和32 kB的L1指令缓存,并有一个512 bit矢量单元以及2个超标量单元;为了提高Xeon Phi的计算能力,将L2缓存增大到了512 kB[15]。Xeon Phi的体系结构如图4所示。1.3 CPU+ASIC
【参考文献】:
期刊论文
[1]C++AMP视角下的计算机图像视频处理研究[J]. 刘小豫,赵蔷,聂维. 信息与电脑(理论版). 2018(21)
[2]跨媒体分析与推理:研究进展与发展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
[3]异构并行编程模型研究与进展[J]. 刘颖,吕方,王蕾,陈莉,崔慧敏,冯晓兵. 软件学报. 2014(07)
本文编号:3241283
【文章来源】:计算机科学. 2020,47(08)北大核心CSCD
【文章页数】:13 页
【部分图文】:
协处理器架构
ARM微处理器可支持多达16个协处理器,这些协处理器可用于各种协处理操作,在程序执行过程中,每个协处理器只执行针对自身的协处理指令。ARM的协处理器指令主要用于ARM处理器初始化、ARM的协处理器的数据处理操作,以及在ARM的处理器的寄存器和ARM协处理器的寄存器之间传送数据,在ARM协处理器的寄存器和存储器之间传送数据。ARM的协处理器架构如图2所示。Hinds等[4]提出了一种用于嵌入式信号处理和图形应用的浮点协处理器,其可以改善关键部分的信号处理单元上的性能。Sohn等[5]设计了一个基于ARM-10的定点多媒体协处理器,其通过采用双操作的定点协同处理器结构,在单一硬件中实现了低功耗的先进三维图形算法和各种流媒体的多媒体功能。1.2 CPU+众核处理器
Intel公司也推出了众核的处理器MIC芯片,其处理核心数目为50~64。第二代Intel Xeon Phi多核处理器拥有60多个核,如在Intel Xeon Phi 7250 KNL处理器中已经有68个核心[14]。与GPGPU相比,MIC芯片的核心数目较少,但是单个核心的处理能力较强,每个核心能够独立调度,属于重核心;而GPGPU的核心往往公用一些指令部件,不能独立调度,属于轻核心。在Xeon Phi的x86核心设计中,每个内核可以执行4个同步线程,但是在理想情况下,每次只能处理其中的2条线程。Xeon Phi属于顺序执行处理器,没有任何乱序执行能力。Xeon Phi的x86核心内部实际上是双发射设计,指令经过解码单元解码后会进入0号管线或者1号管线,然后会被送入其所需要的单元进行处理。Xeon Phi的VPU中包含的矢量ALU可以高效率地执行16 wide×32 bit的数据或者8 wide×64 bit的数据。除了VPU单元外,Intel还特别加入了x87浮点单元来对一些特殊的浮点数据进行处理;为每个x86核心配备了32 kB的L1数据缓存和32 kB的L1指令缓存,并有一个512 bit矢量单元以及2个超标量单元;为了提高Xeon Phi的计算能力,将L2缓存增大到了512 kB[15]。Xeon Phi的体系结构如图4所示。1.3 CPU+ASIC
【参考文献】:
期刊论文
[1]C++AMP视角下的计算机图像视频处理研究[J]. 刘小豫,赵蔷,聂维. 信息与电脑(理论版). 2018(21)
[2]跨媒体分析与推理:研究进展与发展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
[3]异构并行编程模型研究与进展[J]. 刘颖,吕方,王蕾,陈莉,崔慧敏,冯晓兵. 软件学报. 2014(07)
本文编号:3241283
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3241283.html