一种类CPU的深度学习协处理器架构
发布时间:2022-06-23 08:55
深度学习是当前人工智能领域的关键技术之一,它在图像识别、语音识别、自然语言处理等领域均取得了突破性的成绩,大大推进了人工智能的发展。然而,随着深度学习的发展,它的核心问题也愈显突出,如高计算量、高数据带宽、应用碎片化等,这些问题成为近年来制约相关技术发展的关键因素。本文融合了CPU和专用处理器各自的优势,提出了一种类CPU的深度学习协处理器架构,该架构具有可灵活编程、高计算密度等的特点,同时,由于该处理器还采用了存算紧耦的计算架构,因此能有效重复利用权重等数据,降低了对带宽的需求。本文从硬件架构、软件架构、软件编程模型、软件运行模型等多个角度介绍类CPU的深度学习协处理器架构,同时基于该架构的处理器芯片也已经在28nm下流片成功,进一步验证了该架构的可行性。
【文章页数】:12 页
【文章目录】:
1 引言
2 AI的特点及带来的挑战
2.1 AI应用及其生态的特点及挑战
(1)应用碎片化
(2)生态撕裂(可编程性差)
2.2 AI计算的特点及挑战
(1)高密度计算
(2)高带宽低延迟
(3)计算方式不规则
3 现有NPU的架构分析
3.1 CGRA(可重构架构)
3.2 ASIC架构
3.3 SIMD+ASIC架构
4 AICPU架构
4.1 概述
4.2 硬件架构
4.3 软件架构
4.4 可编程性
5 AICPU实现
5.1 IP设计
(1)NN加速单元
(2)IOMMU
5.2 软件设计
5.3 编程模型
(1)CPU算子扩展
(2)NN加速单元算子扩展
6 实验及数据分析
1、AICPU与通用CPU对比分析
2、DDR对AICPU的影响分析
7 结语
【参考文献】:
期刊论文
[1]基于物联网的家居环境监测预警系统设计[J]. 李兵,肖茂翔. 物联网技术. 2021(11)
本文编号:3653795
【文章页数】:12 页
【文章目录】:
1 引言
2 AI的特点及带来的挑战
2.1 AI应用及其生态的特点及挑战
(1)应用碎片化
(2)生态撕裂(可编程性差)
2.2 AI计算的特点及挑战
(1)高密度计算
(2)高带宽低延迟
(3)计算方式不规则
3 现有NPU的架构分析
3.1 CGRA(可重构架构)
3.2 ASIC架构
3.3 SIMD+ASIC架构
4 AICPU架构
4.1 概述
4.2 硬件架构
4.3 软件架构
4.4 可编程性
5 AICPU实现
5.1 IP设计
(1)NN加速单元
(2)IOMMU
5.2 软件设计
5.3 编程模型
(1)CPU算子扩展
(2)NN加速单元算子扩展
6 实验及数据分析
1、AICPU与通用CPU对比分析
2、DDR对AICPU的影响分析
7 结语
【参考文献】:
期刊论文
[1]基于物联网的家居环境监测预警系统设计[J]. 李兵,肖茂翔. 物联网技术. 2021(11)
本文编号:3653795
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3653795.html