基于Hadoop平台的机器学习分类算法

发布时间：2021-03-09 11:19

　　分类算法作为机器学习领域中重要研究内容,被广泛地应用于风险管理、用户画像、图像识别等场景。在实际应用中,K最近邻算法、逻辑回归算法、BP（Back Propagation）神经网络算法是最常用的分类算法。然而,在面对海量数据冲击时,这三种分类算法对内存、数据传输、数据存储要求严苛。普通商用计算机设备已不能满足海量数据处理分析需求。Hadoop平台是一种分布式计算框架,以其优异的性能成为海量数据批量、离线、非实时处理分析的最佳选择。Hadoop平台上MapReduce计算模型被用于改造提升传统机器学习分类算法,使其能够处理分析海量数据。Hadoop平台上的HDFS（Hadoop Distributed File System）分布式文件系统为海量数据存储提供解决方案。本文立足于设计、论证基于Hadoop平台的机器学习分类算法,旨在解决海量数据处理分析需求,主要完成以下工作。（1）为解决现有算法中间数据传输量大的问题,优化了基于Hadoop平台的K最近邻算法。优化后的算法在Map阶段,通过传统K最近邻算法得到测试样例的初步类别预测,在Reduce阶段,通过多数投票法得出测试样例的最终类别预...

【文章来源】：西安电子科技大学陕西省 211工程院校教育部直属院校

【文章页数】：102 页

【学位级别】：硕士

【部分图文】：

基于Hadoop平台的机器学习分类算法

国内外研究地理位置分布

分布式文件系统,中数,文件,管理单元

Hadoop 平台上，NameNode、DataNode 和 Client 是完成海量数据文件存成部分[20]。其中 NameNode 是 HDFS 分布式文件系统的管理单元，DataN件存储单元，Client 是在 HDFS 分布式文件系统上读写文件的端口[20]。在式文件系统中数据文件的写入和读取过程如图 2.2，图 2.3 所示[23]。

分布式文件系统,数学家,处理分析,海量数据

HDFS 分布式文件系统中数据文件读出据的处理分析模型 MapReduce 经过诸多数学家、计立在数学和计算机科学的基础之上。设计者通过大行化编程模型具有简单、高效、可扩展性强等特点 MapReduce 编程接口，开发者通过编写 Map 和 Re。Map 函数和 Reduce 函数输入输出数据文件的格设计为算法的实现带来了诸多便利。Hadoop 平台通讯的协调、任务的调度。MapReduce 计算模型映射成新的键值对，然后把所有的 Ma再传递给定义的 Reduce 函数。其中具有相同键的 Combine 函数实现[20]。MapReduce 计算模型数据M (2-

【参考文献】：
期刊论文
[1]可扩展机器学习的并行与分布式优化算法综述[J]. 亢良伊,王建飞,刘杰,叶丹. 软件学报. 2018(01)
[2]改进的Hadoop作业调度算法[J]. 冯兴杰,贺阳. 计算机工程与应用. 2017(12)

本文编号：3072761

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3072761.html

上一篇：基于代码语义向量表示和深度学习的软件漏洞检测方法
下一篇：基于双链特异性核酸酶信号扩增的纳米传感器检测microRNA

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|