基于Hadoop平台的机器学习分类算法
发布时间:2021-03-09 11:19
分类算法作为机器学习领域中重要研究内容,被广泛地应用于风险管理、用户画像、图像识别等场景。在实际应用中,K最近邻算法、逻辑回归算法、BP(Back Propagation)神经网络算法是最常用的分类算法。然而,在面对海量数据冲击时,这三种分类算法对内存、数据传输、数据存储要求严苛。普通商用计算机设备已不能满足海量数据处理分析需求。Hadoop平台是一种分布式计算框架,以其优异的性能成为海量数据批量、离线、非实时处理分析的最佳选择。Hadoop平台上MapReduce计算模型被用于改造提升传统机器学习分类算法,使其能够处理分析海量数据。Hadoop平台上的HDFS(Hadoop Distributed File System)分布式文件系统为海量数据存储提供解决方案。本文立足于设计、论证基于Hadoop平台的机器学习分类算法,旨在解决海量数据处理分析需求,主要完成以下工作。(1)为解决现有算法中间数据传输量大的问题,优化了基于Hadoop平台的K最近邻算法。优化后的算法在Map阶段,通过传统K最近邻算法得到测试样例的初步类别预测,在Reduce阶段,通过多数投票法得出测试样例的最终类别预...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:硕士
【部分图文】:
国内外研究地理位置分布
Hadoop 平台上,NameNode、DataNode 和 Client 是完成海量数据文件存成部分[20]。其中 NameNode 是 HDFS 分布式文件系统的管理单元,DataN件存储单元,Client 是在 HDFS 分布式文件系统上读写文件的端口[20]。在式文件系统中数据文件的写入和读取过程如图 2.2,图 2.3 所示[23]。
HDFS 分布式文件系统中数据文件读出据的处理分析模型 MapReduce 经过诸多数学家、计立在数学和计算机科学的基础之上。设计者通过大行化编程模型具有简单、高效、可扩展性强等特点 MapReduce 编程接口,开发者通过编写 Map 和 Re。Map 函数和 Reduce 函数输入输出数据文件的格设计为算法的实现带来了诸多便利。Hadoop 平台通讯的协调、任务的调度。MapReduce 计算模型 映射成新的键值对 ,然后把所有的 Ma再传递给定义的 Reduce 函数。其中具有相同键的 Combine 函数实现[20]。MapReduce 计算模型数据M (2-
【参考文献】:
期刊论文
[1]可扩展机器学习的并行与分布式优化算法综述[J]. 亢良伊,王建飞,刘杰,叶丹. 软件学报. 2018(01)
[2]改进的Hadoop作业调度算法[J]. 冯兴杰,贺阳. 计算机工程与应用. 2017(12)
本文编号:3072761
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:硕士
【部分图文】:
国内外研究地理位置分布
Hadoop 平台上,NameNode、DataNode 和 Client 是完成海量数据文件存成部分[20]。其中 NameNode 是 HDFS 分布式文件系统的管理单元,DataN件存储单元,Client 是在 HDFS 分布式文件系统上读写文件的端口[20]。在式文件系统中数据文件的写入和读取过程如图 2.2,图 2.3 所示[23]。
HDFS 分布式文件系统中数据文件读出据的处理分析模型 MapReduce 经过诸多数学家、计立在数学和计算机科学的基础之上。设计者通过大行化编程模型具有简单、高效、可扩展性强等特点 MapReduce 编程接口,开发者通过编写 Map 和 Re。Map 函数和 Reduce 函数输入输出数据文件的格设计为算法的实现带来了诸多便利。Hadoop 平台通讯的协调、任务的调度。MapReduce 计算模型 映射成新的键值对 ,然后把所有的 Ma再传递给定义的 Reduce 函数。其中具有相同键的 Combine 函数实现[20]。MapReduce 计算模型数据M (2-
【参考文献】:
期刊论文
[1]可扩展机器学习的并行与分布式优化算法综述[J]. 亢良伊,王建飞,刘杰,叶丹. 软件学报. 2018(01)
[2]改进的Hadoop作业调度算法[J]. 冯兴杰,贺阳. 计算机工程与应用. 2017(12)
本文编号:3072761
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3072761.html