基于Spark的大规模分布式矩阵运算算法研究与实现
发布时间:2021-01-16 23:30
近年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用数据呈爆炸性增长,全球进入到了一个全新的“大数据”时代,引起业界、学术界和各国政府的高度关注。大数据中往往隐含着很多在小数据量时不具备的深度知识和价值,因此大数据存储处理与分析应用成为近几年来的研究热点。机器学习和数据分析是将大数据转换成有用知识的关键技术。而在大数据机器学习处理时,大多数机器学习和数据分析算法都可以表示为矩阵或向量代数计算。因而在大数据机器学习算法中,矩阵运算的性能很大程度上决定了学习和分析算法整体的运行性能。以深度神经网络算法为例,大部分的计算量都花费在矩阵乘法上。而大数据场景下矩阵运算的另一个技术难题是,大规模矩阵运算无法基于单机在可接受的时间内完成,因此,有必要研究实现基于集群的大规模分布式矩阵运算方法和算法。为此,本文将研究基于大数据平台的大规模分布式矩阵运算方法和算法,以提高大规模矩阵运算的计算性能,最终为分布式学习系统提供基础矩阵算法库支撑。在实际的大数据处理场景中,通常包括稠密矩阵和稀疏矩阵两大类矩阵。为此,本文首先对大规模稠密矩阵相关运算进行研究。在分析了Hadoop和Spark等大数据平台上已...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文的研究内容和主要工作
第二章 相关背景知识
2.1 单机矩阵运算库
2.2 基于传统分布式平台的矩阵运算
2.3 Spark大数据处理平台简介
2.3.1 Spark概述
2.3.2 弹性分布式数据集RDD
2.3.3 Spark程序执行框架
2.3.4 Spark的shuffle机制与依赖关系
2.4 矩阵运算与机器学习算法
2.5 本章小结
第三章 稠密矩阵运算方法与算法研究实现
3.1 基于Hadoop MapReduce的分布式矩阵乘法策略
3.2 基于Spark的分布式矩阵乘法策略分析
3.3 基于Spark的分布式矩阵乘法的实现与优化
3.3.1 MapMM策略中高效利用本地原生库
3.3.2 高效的分布式行矩阵与块矩阵的转换
3.3.3 减少矩阵乘法策略中join阶段的shuffle数据读写
3.4 基于Spark的分布式矩阵间逐元素运算实现与优化
3.5 实验设计与结果分析
3.5.1 分布式矩阵切分方式与乘法策略性能分析
3.5.2 分布式矩阵乘法策略的性能对比
3.5.3 分布式矩阵乘法优化的性能对比
3.5.4 分布式矩阵间逐运算的性能对比
3.6 本章小结
第四章 稀疏矩阵运算方法与算法研究实现
4.1 高度稀疏分布式矩阵乘法
4.2 中度稀疏分布式矩阵乘法的实现与优化
4.3 实验设计与结果分析
4.3.1 分布式稀疏-稀疏矩阵乘法运算实验设计与结果分析
4.3.2 分布式稠密-稀疏矩阵乘法运算实验设计与结果分析
4.4 本章小结
第五章 大规模分布式矩阵运算库的设计与实现
5.1 大规模分布式矩阵运算库Marlin的设计
5.2 矩阵库性能对比实验
5.2.1 对比系统介绍
5.2.2 基本分布式乘法运算的性能对比
5.2.3 机器学习算法实例性能对比
5.3 本章小结
第六章 总结与展望
6.1 工作总结
6.2 未来工作
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]大数据机器学习系统研究进展[J]. 黄宜华. 大数据. 2015(01)
[2]高度可伸缩的稀疏矩阵乘法[J]. 吴志川,毛琛,韩蕾,陈立军. 计算机科学与探索. 2013(11)
本文编号:2981743
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文的研究内容和主要工作
第二章 相关背景知识
2.1 单机矩阵运算库
2.2 基于传统分布式平台的矩阵运算
2.3 Spark大数据处理平台简介
2.3.1 Spark概述
2.3.2 弹性分布式数据集RDD
2.3.3 Spark程序执行框架
2.3.4 Spark的shuffle机制与依赖关系
2.4 矩阵运算与机器学习算法
2.5 本章小结
第三章 稠密矩阵运算方法与算法研究实现
3.1 基于Hadoop MapReduce的分布式矩阵乘法策略
3.2 基于Spark的分布式矩阵乘法策略分析
3.3 基于Spark的分布式矩阵乘法的实现与优化
3.3.1 MapMM策略中高效利用本地原生库
3.3.2 高效的分布式行矩阵与块矩阵的转换
3.3.3 减少矩阵乘法策略中join阶段的shuffle数据读写
3.4 基于Spark的分布式矩阵间逐元素运算实现与优化
3.5 实验设计与结果分析
3.5.1 分布式矩阵切分方式与乘法策略性能分析
3.5.2 分布式矩阵乘法策略的性能对比
3.5.3 分布式矩阵乘法优化的性能对比
3.5.4 分布式矩阵间逐运算的性能对比
3.6 本章小结
第四章 稀疏矩阵运算方法与算法研究实现
4.1 高度稀疏分布式矩阵乘法
4.2 中度稀疏分布式矩阵乘法的实现与优化
4.3 实验设计与结果分析
4.3.1 分布式稀疏-稀疏矩阵乘法运算实验设计与结果分析
4.3.2 分布式稠密-稀疏矩阵乘法运算实验设计与结果分析
4.4 本章小结
第五章 大规模分布式矩阵运算库的设计与实现
5.1 大规模分布式矩阵运算库Marlin的设计
5.2 矩阵库性能对比实验
5.2.1 对比系统介绍
5.2.2 基本分布式乘法运算的性能对比
5.2.3 机器学习算法实例性能对比
5.3 本章小结
第六章 总结与展望
6.1 工作总结
6.2 未来工作
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]大数据机器学习系统研究进展[J]. 黄宜华. 大数据. 2015(01)
[2]高度可伸缩的稀疏矩阵乘法[J]. 吴志川,毛琛,韩蕾,陈立军. 计算机科学与探索. 2013(11)
本文编号:2981743
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2981743.html