当前位置:主页 > 科技论文 > 自动化论文 >

分布式深度学习平台DisPyTorch

发布时间:2024-04-20 07:46
  随着大数据与人工智能的发展,深度学习模型面对的问题越来越复杂,模型参数越来越多,处理的数据集规模也越来越大。为了突破单机计算资源的限制,构建一个高效易用的分布式深度学习平台已经成为学术界和工业界广泛关注的问题。已有的大部分分布式深度学习平台仅支持静态计算图,且都是基于参数服务器单一框架的。相较于静态计算图,动态计算图可以在运行过程中修改或定义图中节点从而能够处理更复杂的网络模型。单一的分布式深度学习框架无法高效地处理不同的现实应用场景,比如网络模型的大小不同、分布式节点的多少不同和各节点计算资源均匀与否等多种场景。目前国际上仍没有一个支持多种分布式框架、支持动态计算图的分布式深度学习平台。为了填补这一国际空白,本文基于PyTorch设计并研发了一个分布式深度学习平台DisPyTorch。为了能够处理各种复杂应用场景,本文在DisPyTorch平台上设计并实现了三种分布式深度学习框架:MR-DisPyTorch、RA-DisPyTorch和PS-DisPyTorch。用户可以根据实际的应用场景选择合适的框架。本文的贡献如下:一、设计并实现了一种基于MapReduce编程模型的分布式深度学...

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

图1.2:单隐层前馈网络??

图1.2:单隐层前馈网络??

?第一章绪论???输出??1?I?1??输出层?p...厂)…r)??/?\??隐层?〇?-?〇■?■〇???〇??、X?'、、y?,??pK??输入层?()__?()?■?()??V?Y?Y??输入??图1.2:单隐层前馈网络??表U:常见CNN的参数大小??模型?|层数|??....


图1.3:?BP算法中的变量??

图1.3:?BP算法中的变量??

?第一章绪论???入爲知。那么,对于训练数据(Xfc,yfc),令h为神经网络的输出,则??神经网络在数据(Xfc,yfc)上的误差表示为£^?=?Ljyfc,;^)。令对为输出层第j个??神经元的输出,我们根据这个训练数据,可以利用BP算法,求得£;fc关于??和u^}的梯度,....


图1.4:数据并行??

图1.4:数据并行??

?第一章绪论???!模型m?i?!模型m?;?!模型m?i??i曜?i嘱?:w;???]...??!?^B;?!?^S;?!?^9;??节点1?节点2?节点p??图1.4:数据并行??每个节点分别负责不同数据上的计算量,将多个节点上求得的梯度通过网??络通信来进行模型参数的更新。....


图1.5:模型并行??

图1.5:模型并行??

?第一章绪论???丨节点p??L=t=l???I?■??■?■?■?I?■??■?■??:r-4—\???■■?i节点2??■■丨节点l??!?;??图1.5:模型并行??通过模型并行构成多机流水线,就可以训练非常大的神经网络,克服了单??机无法保存大模型的困难[4]。一方面,在....



本文编号:3959104

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3959104.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户751a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com