当前位置:主页 > 科技论文 > 软件论文 >

Hadoop平台下的分布式SVM算法研究

发布时间:2023-11-06 19:51
  随着技术的发展,数据的规模也随之增长。通过各种方法收集的原始数据(即非结构化数据)的指数增长迫使公司必须改变其业务战略和运营方法。越来越多的公司的收入战略完全基于在数据中获得的信息和对数据的利用。管理和处理大规模数据集(也被称为“大数据”)需要新的方法和技术,但存储和分析不断增长的数据量也带来了新的技术挑战。支持向量机分类器因其良好的泛化能力而成为机器学习领域中非常强大和被广泛接受的分类器。然而,由于支持向量机具有较高的计算复杂度,不适用于大规模数据集。对于大型数据集,计算和存储需求大大增加。本文针对支持向量机(SVM)在处理大型数据集时其计算复杂度和存储要求极大地增加等问题,通过实验对Hadoop集群下的单节点SVM和多节点SVM两种算法进行性能分析,并利用MapReduce编程模型实现,解决了经典SVM在处理大规模数据集时效率低的问题。MapReduce是一种适用于大规模数据集的分布式编程模型,它通过将较大的数据集划分成较小的数据块来并行处理大规模数据集。实验结果表明,与大型数据集的单节点相比,具有多节点集群的SVM在处理大规模数据集时所花费的计算时间较少,可有效加快训练进程。

【文章页数】:46 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 论文章节安排
第2章 支持向量机
    2.1 线性SVM
    2.2 非线性SVM
    2.3 级联SVM
    2.4 Bagging SVM
    2.5 支持向量机的特点
    2.6 本章小结
第3章 Hadoop框架
    3.1 HDFS
    3.2 HDFS优点
    3.3 MapReduce
    3.4 Hadoop优点
    3.5 本章小结
第4章 基于Hadoop分布式SVM的设计与实现
    4.1 单机SVM
    4.2 并行SVM
    4.3 数据预处理
    4.4 基于MapReduce的SVM实现
        4.4.1 MapReduce编程模型
        4.4.2 Map函数
        4.4.3 Reduce函数
        4.4.4 实现基于MapReduce的并行SVM
    4.5 实验环境介绍
        4.5.1 硬件描述
        4.5.2 软件描述
    4.6 Hadoop平台部署及管理
    4.7 实验结果与分析
    4.8 本章小结
第5章 结论和展望
参考文献
攻读学位期间的研究成果
致谢



本文编号:3861163

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3861163.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c71d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com