当前位置:主页 > 科技论文 > 软件论文 >

基于Spark的数据实时分析处理系统的设计与实现

发布时间:2022-12-10 10:39
  随着移动互联网和物联网技术的蓬勃发展,人们从网络上获取信息的方式越来越丰富,同时向网络里传播的信息也越来越多,每时每刻都有巨量的数据产生。在分布式技术日益成熟的今天,海量数据的存储管理难题已经通过分布式文件系统得到较好的解决,对海量数据中信息的检索查找,Hadoop、HBase等技术也已能解决大部分的业务场景需求。但是人们对科学的追求永无止境,能不能比之前更进一步,追求更实时地对数据进行处理分析已经成为所有领域的共同愿望。大量有价值的知识和潜在的规律信息被蕴藏在数据中,这些数据的价值会随着时间的流逝而减少,怎么有效接收管理这些数据并快速分析,发掘计算出数据背后的信息,实现实时统计、预测和决策等功能,成为现在重大的发展机遇与研究热点,亟需一个高效快速、稳定、高吞吐量的实时分析处理系统去对来自各个数据源的数据进行高效、实时、准确的统计分析。现在大数据的类型越来越复杂多样,业界内通俗的解决方案是针对不同的业务场景和数据类型,专门开发设计不同的处理子系统,例如实时流分析使用Storm、离线数据分析使用Hadoop,机器学习要建立额外的模块等,然后通过消息队列、缓存等技术把这些子系统编排成一个大... 

【文章页数】:90 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 研究的目的与意义
    1.4 主要工作与研究
    1.5 本文内容的组织结构
第二章 相关知识背景与技术介绍
    2.1 分布式计算
    2.2 Spark大数据计算框架
        2.2.1 RDD弹性伸缩分布式数据集
        2.2.2 Spark集群模型
        2.2.3 Spark任务调度
        2.2.4 Spark生态系统介绍
    2.3 数据存储层技术
        2.3.1 分布式文件系统HDFS
        2.3.2 基于内存的分布式存储系统Alluxio
    2.4 Docker容器技术概述
    2.5 Kubernetes容器编排技术概述
        2.5.1 Kubernetes主要组件
        2.5.2 Kubernetes总体架构
    2.6 本章小节
第三章 系统平台架构的分析与设计
    3.1 系统需求分析和设计目标
        3.1.1 功能性需求
        3.1.2 非功能性需求
    3.2 系统数据处理框架分析
        3.2.1 MapReduce计算模型
        3.2.2 Spark中改进mapReduce的地方
    3.3 实时数据处理系统平台整体架构设计与实现
    3.4 本章小结
第四章 新型ETL模块的分析与实现
    4.1 模块总体设计与功能分析
        4.1.1 传统ETL面临的问题
        4.1.2 新型ETL模块的功能和特点
        4.1.3 模块结构与工作原理
    4.2 数据收发子模块设计与实现
        4.2.1 Kafka
        4.2.2 数据采集层
        4.2.3 数据输出层
    4.3 转换子模块的设计与实现
        4.3.1 数据格式转换
        4.3.2 数据去重和字段融合
        4.3.3 数据源融合
    4.4 本章小结
第五章 实时处理模块的分析与实现
    5.1 模块总体设计与功能分析
        5.1.1 实时处理模块的功能和特点
        5.1.2 模块结构与工作原理
    5.2 实时处理模块的分析与实现
        5.2.1 DataFrame结构化数据
        5.2.2 实时流转换无限表模型
        5.2.3 实时流处理方法
        5.2.4 滑动窗口实时流处理方法
        5.2.5 实时决策
    5.3 系统优化
        5.3.1 数据倾斜
        5.3.2 Spark与Redis结合
    5.4 本章小结
第六章 系统实验与应用
    6.1 实验平台和参数配置
    6.2 测试数据源
    6.3 实验测试
        6.3.1 功能测试
        6.3.2 性能测试
    6.4 基于Spark的实时广告点击预测应用
    6.5 实验总结
第七章 全文工作总结与展望
    7.1 工作总结
    7.2 展望
致谢
参考文献
攻读硕士学位期间取得的成果


【参考文献】:
期刊论文
[1]中国正迎来从IT时代到DT时代的变革[J]. 白皓.  中国广播. 2015(07)
[2]Storm实现的应用模型研究[J]. 邓立龙,徐海水.  广东工业大学学报. 2014(03)
[3]MapReduce:新型的分布式并行计算编程模型[J]. 李成华,张新访,金海,向文.  计算机工程与科学. 2011(03)



本文编号:3716601

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3716601.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44dca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com