当前位置:主页 > 教育论文 > 高等教育论文 >

高校人工智能实验室的规划与建设

发布时间:2021-08-26 00:04
  该文讨论了高校在建设人工智能实验室时,需考虑的计算能力、训练数据集、算法及框架这三大要素,设计了人工智能实验室的架构,并重点介绍了单机深度学习实验平台和基于CPU加速云服务的共享深度学习实验平台的设计思路和技术方案。此外,还介绍了人工智能实验课程的体系和实验项目。 

【文章来源】:实验技术与管理. 2020,37(10)北大核心

【文章页数】:7 页

【部分图文】:

高校人工智能实验室的规划与建设


深度学习工作站的体系结构示例

体系结构图,体系结构,平台,服务器


GPU加速云平台的体系结构见图2。底层是云平台物理集群,包括CPU/GPU/FPGA等运算资源、阵列等存储资源,以及网卡等网络资源。再上一层便是虚拟化管理程序(Hypervisor),负责将所有的硬件资源虚拟化并放入统一管理和分配的虚拟资源池,然后通过虚拟服务器(或容器)来对用户需要的计算资源、存储资源、网络资源进行定制和封装,并通过网络提交给用户使用。只要网络稳定、高速,用户基本上很难感觉出虚拟GPU服务器和物理虚拟GPU服务器的差别。通常GPU加速云平台物理服务器采用机架式结构,在数据中心以集群方式运行。图3所示为一个基于GPU加速云平台的典型实验过程。用户可以申请不同配置的虚拟GPU服务器,配置的资源越高,租赁的时间越长,费用就越高。如果计算量比较大,还需租借多台虚拟GPU服务器构成计算集群,通过并行计算来加快模型的训练速度。申请成功后,云平台会从资源池中划出资源,分配给从模板中克隆出的GPU服务器。此时用户可将训练资料从资料库中提取出来并送入虚拟GPU计算集群进行AI模型训练。训练结束后生成的模型存入AI模型库。在需要使用AI模型的时候,将AI模型调入AI推理机,同时为AI推理机送入实时数据,最后将AI推理结果以报表、图表等形式进行展示。为了方便数据共享,镜像/容器模板库、训练资料库、AI模型库均可采用基于网络云盘或云对象存储来实现。

过程图,平台,过程,服务器


建设GPU加速私有云时,通常需配置一个云管理服务器及若干计算服务器。在计算服务器上插GPU运算加速卡,以单台计算服务器插8块GTX 1080 Ti GPU运算加速卡为例,主机需配置单路或双路8核以上CPU,因为所有显存合计11G×8=88G,所以主机需配4~6块32G的DDR4内存。如果采用的是本地存储而非网络存储,为了提高训练资料的加载速度,可将数据放入SSD固态硬盘。一台计算服务器可以同时满足8人实验需求,平均每人可分到3584CUDA核、11.5TFLOPS的AI计算资源。以此类推,每增加8人需增加一台计算服务器。因此,若32人实验,需配备1台云管理服务器+4台计算服务器。如果每人分配的资源再少一些的话,32人配2~3台计算服务器也是可行的。3 人工智能实验项目设计


本文编号:3363132

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/gaodengjiaoyulunwen/3363132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a3a69***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com