基于云计算的人工智能训练平台的研究与设计
发布时间:2021-10-21 04:29
随着近几年信息技术与大数据的高速发展,人工智能在变得越来越火热的同时,也取得了良好的发展。但是研究人员在模型训练过程中常常会遇到一些问题,如计算资源包括但不限于CPU、内存、显卡等的利用率较低,或者因为某些人为因素导致机器环境的不稳定,最后导致其它研究人员无法使用等问题时有发生。于是本文基于上述原因尝试提出基于云计算的人工智能训练平台。本文首先对目前云计算的发展现状、虚拟化技术、容器化技术、容器调度方案等关键技术和国内外人工智能训练平台的发展现状进行了研究。然后通过深入对比分析各个容器调度方案的优缺点,确定了本文将采用目前最为流行的云计算组合Docker容器化技术+容器调度方案Kubernetes为基础搭建人工智能训练平台。然后本文根据目前实际应用场景对平台的需求以及可行性进行分析,并以此为基础提出了平台的整体架构方案。最后在完成平台基础功能的基础上,对平台中涉及到的存储环境进行研究,确定存储方案Ceph分布式文件系统,并对该文件系统进行优化。本文主要的工作内容如下:1)通过对人工智能训练平台的存储环境进行分析,对比NFS文件系统和Ceph文件系统的性能优劣,本文最终选择基于Ceph文...
【文章来源】: 刘宇博 北京邮电大学
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
图2-2平台虚拟化与容器虚拟化对比图??
由于利用平台进行人工智能训练需要满足的需求较多,这些需求内容可以大??部分覆盖到其他任务的需求,所以本节将对其核心流程进行介绍,具体流程内容??如图3-3所示,对于具体创建的模块和具体应用,本节将几个较为重要的需求模??块进行简要说明,对于其更加详细地具体操作以及平台对应的返回内容可以参考??第五章的内容。对于数据中心模块,其主要任务是进行数据的采集、清洗、标注,??不同用户进行自有数据的注册认领等操作;训练中心模块的主要任务是进行镜像??的搭建、模型的训练等操作;业务中心的主要任务是将过去一段时间己经训练好??的模型进行升级的工作,具体内容是利用己有的模型和己经添加新数据的数据集??对于现有模型进行?finetunepre-trainedmodel?工作,其中?fmetimepre-trainedmodel??是Transfer?Learning?(迁移学习)的一种方式;监控中心主要是对集群内的所有??宿主机的资源进行监控,如显卡个数,CPU状态,内存使用量,以及网络1/?的??吞吐情况等。其中对于数据中心模块的数据处理任务和训练中心模块的模型训练??任务则会根据不同的需求,提供不同的方式对宿主机上的容器进行远程登录。一??种方式是通过启动web界面的方式,另一种方式是通过SSH?-X的终端连接的??方式。平台所涉及的全部模块以及数据中心模块所对应的任务列表如图3-4所示。??如图3-5为环境搭建平台的页面展示
??为数据存储媒介及PVC?(PersistentVolumeClaim)申请的页面展示,图3-8为参??数文件夹管理的页面展示。??的镜像?v数据集?I数据存储媒介j?I参数文件夹j??是?1?"1?否?是?I?■?L-?)?¥????—1??1?是?■?■?1?H?否??a?m?否??P1?![通丄的?1?f通过i台的?1?土的,if通过二的)flilifl?flsSiil??_J训练中心授?L巧据集J数据中心授?I据存醒介J工作流模块?1夕数〒件夹J??块的环境搭?块的标注数?的pvc配額管??建平台任务?据管理任务?理任务建立?22522??建立上属的?建222的?”储??镜像?数据集?媒介?夹???y?\?J??/?V??y??f建立人工i能训练任^??L?务容器?J??图3-3平台创建任务流程图??挪雜邱餅?^r,?matrixWH?雜?SS?货?HU??B第灌点管_?(Q)?matridE蠢蓍理?|龚.上f?C狰出緣注數??,?^;';?数捶实时统计?〇?、?标注系铳?人絵聚》??々⑶V、。J?清^瑁与B麇雇約实咛?(g)?BUM说系後S*入口?竃袭人Ifi供?结果農SJ5??}[.?^?^?新建致播流任务?r、、?敗播流平台入口?Hue平台??(0>)齡抽振逢任务?(^)?BtBa^SfAa?Hadoop.?Swrk,?H?v?.??HgdSOlff?台入口??图3-4平台模块的部分展示??19??
【参考文献】:
期刊论文
[1]中外云计算产业发展形势与比较[J]. 郭朝先,胡雨朦. 经济与管理. 2019(02)
[2]Kubernetes高可用集群的部署实践[J]. 盛乐标,周庆林,游伟倩,张予倩. 电脑知识与技术. 2018(26)
[3]云计算主流虚拟化技术的比较分析与研究[J]. 欧坤,陈玲. 芜湖职业技术学院学报. 2018(02)
[4]基于KVM云桌面平台虚拟化架构的应用研究[J]. 倪云霞,陆冬磊. 计算机产品与流通. 2018(06)
[5]浅析Kubernetes容器虚拟化技术[J]. 马征,缪凯,张广温. 金融电子化. 2018(06)
[6]容器虚拟化技术在飞腾1500A平台的应用[J]. 马晓光,孙大军,吴登勇,陈亮甫. 信息技术与信息化. 2017(06)
[7]百度PaddlePaddle联手Kubernetes[J]. 商业观察. 2017(Z1)
[8]云计算行业发展背景理解与思考[J]. 张立平. 轻工科技. 2015(01)
[9]云计算技术发展现状及应用探讨[J]. 杨燕. 硅谷. 2015(01)
[10]云计算应用模式下移动互联网安全问题浅析[J]. 房秉毅,张云勇,吴俊,徐雷. 电信科学. 2013(03)
硕士论文
[1]基于Mesos的数据中心资源调度和存储性能优化技术研究[D]. 刘文斌.广西大学 2018
[2]基于LXC的PaaS云中支持QoS的自适应部署机制研究[D]. 李雪飞.青岛大学 2017
[3]移动用户上网行为分析系统关键技术研究[D]. 周庆玲.北京交通大学 2014
本文编号:3448242
【文章来源】: 刘宇博 北京邮电大学
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
图2-2平台虚拟化与容器虚拟化对比图??
由于利用平台进行人工智能训练需要满足的需求较多,这些需求内容可以大??部分覆盖到其他任务的需求,所以本节将对其核心流程进行介绍,具体流程内容??如图3-3所示,对于具体创建的模块和具体应用,本节将几个较为重要的需求模??块进行简要说明,对于其更加详细地具体操作以及平台对应的返回内容可以参考??第五章的内容。对于数据中心模块,其主要任务是进行数据的采集、清洗、标注,??不同用户进行自有数据的注册认领等操作;训练中心模块的主要任务是进行镜像??的搭建、模型的训练等操作;业务中心的主要任务是将过去一段时间己经训练好??的模型进行升级的工作,具体内容是利用己有的模型和己经添加新数据的数据集??对于现有模型进行?finetunepre-trainedmodel?工作,其中?fmetimepre-trainedmodel??是Transfer?Learning?(迁移学习)的一种方式;监控中心主要是对集群内的所有??宿主机的资源进行监控,如显卡个数,CPU状态,内存使用量,以及网络1/?的??吞吐情况等。其中对于数据中心模块的数据处理任务和训练中心模块的模型训练??任务则会根据不同的需求,提供不同的方式对宿主机上的容器进行远程登录。一??种方式是通过启动web界面的方式,另一种方式是通过SSH?-X的终端连接的??方式。平台所涉及的全部模块以及数据中心模块所对应的任务列表如图3-4所示。??如图3-5为环境搭建平台的页面展示
??为数据存储媒介及PVC?(PersistentVolumeClaim)申请的页面展示,图3-8为参??数文件夹管理的页面展示。??的镜像?v数据集?I数据存储媒介j?I参数文件夹j??是?1?"1?否?是?I?■?L-?)?¥????—1??1?是?■?■?1?H?否??a?m?否??P1?![通丄的?1?f通过i台的?1?土的,if通过二的)flilifl?flsSiil??_J训练中心授?L巧据集J数据中心授?I据存醒介J工作流模块?1夕数〒件夹J??块的环境搭?块的标注数?的pvc配額管??建平台任务?据管理任务?理任务建立?22522??建立上属的?建222的?”储??镜像?数据集?媒介?夹???y?\?J??/?V??y??f建立人工i能训练任^??L?务容器?J??图3-3平台创建任务流程图??挪雜邱餅?^r,?matrixWH?雜?SS?货?HU??B第灌点管_?(Q)?matridE蠢蓍理?|龚.上f?C狰出緣注數??,?^;';?数捶实时统计?〇?、?标注系铳?人絵聚》??々⑶V、。J?清^瑁与B麇雇約实咛?(g)?BUM说系後S*入口?竃袭人Ifi供?结果農SJ5??}[.?^?^?新建致播流任务?r、、?敗播流平台入口?Hue平台??(0>)齡抽振逢任务?(^)?BtBa^SfAa?Hadoop.?Swrk,?H?v?.??HgdSOlff?台入口??图3-4平台模块的部分展示??19??
【参考文献】:
期刊论文
[1]中外云计算产业发展形势与比较[J]. 郭朝先,胡雨朦. 经济与管理. 2019(02)
[2]Kubernetes高可用集群的部署实践[J]. 盛乐标,周庆林,游伟倩,张予倩. 电脑知识与技术. 2018(26)
[3]云计算主流虚拟化技术的比较分析与研究[J]. 欧坤,陈玲. 芜湖职业技术学院学报. 2018(02)
[4]基于KVM云桌面平台虚拟化架构的应用研究[J]. 倪云霞,陆冬磊. 计算机产品与流通. 2018(06)
[5]浅析Kubernetes容器虚拟化技术[J]. 马征,缪凯,张广温. 金融电子化. 2018(06)
[6]容器虚拟化技术在飞腾1500A平台的应用[J]. 马晓光,孙大军,吴登勇,陈亮甫. 信息技术与信息化. 2017(06)
[7]百度PaddlePaddle联手Kubernetes[J]. 商业观察. 2017(Z1)
[8]云计算行业发展背景理解与思考[J]. 张立平. 轻工科技. 2015(01)
[9]云计算技术发展现状及应用探讨[J]. 杨燕. 硅谷. 2015(01)
[10]云计算应用模式下移动互联网安全问题浅析[J]. 房秉毅,张云勇,吴俊,徐雷. 电信科学. 2013(03)
硕士论文
[1]基于Mesos的数据中心资源调度和存储性能优化技术研究[D]. 刘文斌.广西大学 2018
[2]基于LXC的PaaS云中支持QoS的自适应部署机制研究[D]. 李雪飞.青岛大学 2017
[3]移动用户上网行为分析系统关键技术研究[D]. 周庆玲.北京交通大学 2014
本文编号:3448242
本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/3448242.html