当前位置:主页 > 科技论文 > 软件论文 >

基于Spark的并行数据挖掘研究及应用

发布时间:2022-07-08 10:23
  在当前大数据时代,网络技术和硬件设备的飞速发展造成指数性的数据增长。尽管在小数据集上,传统的数据挖掘技术已经得到了充分的发展和利用,证明了其巨大的价值与意义。但是在海量数据的挑战下,数据挖掘领域仍然存在着算法执行效率低、算法并行优化不够以及数据挖掘平台易用性差等问题。当前主流的分布式计算框架,主要有Hadoop、Storm和Spark。其中Storm为流式处理引擎,用于解决数据流的实时计算问题。Hadoop属于批处理计算框架,应用于海量数据的存储与计算。其中HDFS组件面向大数据存储,具有高可靠、高容错和高扩展等优点,MapReduce模型则极大地简化了并行编程工作。而Spark是新一代的基于内存的并行计算框架,其提出的RDD模型更加简单,在执行效率上也远胜于Hadoop。本文基于上述背景,调研了当前并行数据挖掘领域发展现状,主要针对并行数据挖掘算法和并行数据挖掘工具进行研究。基于Spark作为编程模型和处理引擎,本文主要完成了以下工作:(1)KMeans++算法优化及并行化:研究了聚类问题中的典型算法KMeans及KMeans++的原理和实现方式。分析了算法优劣,并针对KMeans+... 

【文章页数】:88 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 项目背景
    1.2 国内外研究现状
        1.2.1 数据挖掘发展现状
        1.2.2 数据挖掘工具发展现状
    1.3 研究意义与创新
    1.4 论文内容及结构
第二章 Spark平台及相关技术介绍
    2.1 相关技术综述
    2.2 Hadoop简介
    2.3 Spark内存计算框架
        2.3.1 Spark简介
        2.3.2 Spark生态介绍
        2.3.3 Spark并行计算架构设计思想
        2.3.4 Spark运行流程
    2.4 工作流引擎Oozie介绍
    2.5 数据挖掘框架介绍
    2.6 本章小结
第三章 数据挖掘算法研究与并行优化
    3.1 KMeans++算法的改进和并行化
        3.1.1 聚类问题介绍
        3.1.2 KMeans算法简介
        3.1.3 KMeans++算法简介
        3.1.4 改进的KMeans++算法
        3.1.5 改进后算法的并行实现
    3.2 SVM算法并行化研究与改进
        3.2.1 分类问题定义
        3.2.2 SVM算法和小批量随机梯度下降算法
        3.2.3 自适应梯度下降算法
        3.2.4 SVM算法的并行实现思路
        3.2.5 SVM算法的并行算法优化
    3.3 本章小结
第四章 并行数据挖掘调度框架的设计与实现
    4.1 系统目标
    4.2 并行数据挖掘调度框架设计
        4.2.1 功能设计
        4.2.2 系统架构设计
        4.2.3 物理架构设计
    4.3 任务处理引擎
        4.3.1 任务处理引擎设计原理
        4.3.2 拖拽式任务调度流程
        4.3.3 工作流描述定义
        4.3.4 图结构定义
        4.3.5 程序解析模块实现
        4.3.6 工作流处理模块实现
        4.3.7 任务调度器实现
    4.4 算法层设计
    4.5 本章小结
第五章 算法实验和系统分析
    5.1 测试环境
        5.1.1 硬件环境
        5.1.2 软件环境
    5.2 算法实验分析
        5.2.1 改进的 KMeans++算法分析实验
            5.2.1.1 数据集介绍
            5.2.1.2 SSE和迭代次数对比
            5.2.1.3 轮廓系数对比
            5.2.1.4 时间对比
            5.2.1.5 加速比实验
        5.2.2 并行 SVM 算法分析实验
            5.2.2.1 数据集介绍
            5.2.2.2 时间和准确率对比
            5.2.2.3 分区数对训练时间影响
    5.3 系统分析
        5.3.1 系统展示
        5.3.2 性能对比
    5.4 电商评论数据分析应用
        5.4.1 实验及数据集介绍
        5.4.2 实验过程
        5.4.3 效果对比
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
攻读硕士学位期间取得的成果


【参考文献】:
期刊论文
[1]PDMiner:基于云计算的并行分布式数据挖掘工具平台[J]. 何清,庄福振,曾立,赵卫中,谭庆.  中国科学:信息科学. 2014(07)

硕士论文
[1]基于Spark的若干数据挖掘技术研究[D]. 宁永恒.中国计量学院 2015
[2]基于Spark平台的CURE算法并行化设计与应用[D]. 邱荣财.华南理工大学 2014



本文编号:3656851

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3656851.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e5a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com