基于Spark的分布式深度学习系统的研究与实现
发布时间:2024-01-17 15:13
近年来随着大数据的到来与人工智能特别是深度学习的迅速发展,深度神经网络模型在诸多领域都取得突破性的进展并得到了广泛应用,包括语音识别、图像识别以及自然语言处理等。深度学习通过不断的求导迭代更新模型来提高自己的能力,需要大量的计算,是典型的计算密集型任务,因此这些神经网络的训练过程非常耗时。尽管近些年GPU(图形处理器)的硬件技术、轻量级网络模型和以及高效训练方法的研究取得了诸多的进展,但是单机训练耗时依然过长。其次,深度学习要求很大的模型与大量的训练数据,同时研究表明数据规模与神经网络的性能成线性增长关系,未来训练数据会达到PB、ZB级。随着数据与模型参数量的越来越大,单机的内存(或显存)的增长速度并不能与之相匹配。由此,单节点进行深度学习训练已经无法满足要求。分布式由于其良好的灵活性与可扩展性,可将单机资源有效的结合起来,分布式深度学习成为解决该问题的有效手段。首先,为了在上述背景下,本文创新性的基于Spark与Pytorch提出了一种基于数据并行策略的分布式深度学习方法与系统Dpplee3。系统采用参数服务器架构,利用Spark进行分布式集群资源管理,同时完成数据模型分发等分布式任...
【文章页数】:87 页
【学位级别】:硕士
本文编号:3879312
【文章页数】:87 页
【学位级别】:硕士
本文编号:3879312
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3879312.html