当前位置:主页 > 科技论文 > 软件论文 >

异构数据同步系统的研究与实现

发布时间:2024-02-16 02:42
  为了解决海量数据的分析需求,围绕Hive进行大数据仓库建设并在之上使用HiveQL进行统计分析是业界常用的解决方案。企业通常使用开源数据同步工具Kettle、Sqoop等将业务数据库产生的历史数据、实时增量数据以及历史文件数据同步到Hive仓库中。经过前期的调研与研究,发现开源数据同步工具存在以下问题:a)在历史数据同步任务中开源数据同步工具虽然提供了强大的功能,但操作复杂,使用门槛高;b)实时数据同步任务对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高;c)文件数据一般存储在单台物理机器上,可能发生磁盘损坏导致文件丢失的情况,开源数据同步工具创建的文件数据同步任务无法保证客户端文件数据的安全性,同时没有提供方便的了解文件的元数据视图;d)开源数据同步工具孤立、很难和大数据统计分析业务整合到一起。本文针对以上问题构建了一个异构数据同步系统。主要研究内容包括以下四个部分:1)针对在历史数据同步任务中操作复杂,使用门槛高等问题,研究实现了一种基于Spark的历史数据同步子系统;2)针对在实时数据同步任务中存在的对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高等问...

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状分析
    1.3 论文目标及主要研究内容
    1.4 硕士期间主要工作
    1.5 论文组织结构
第二章 异构数据同步系统的需求分析和与整体架构设计
    2.1 数据同步系统的特点
    2.2 异构数据同步系统的需求分析
        2.2.1 历史数据同步需求分析
        2.2.2 实时数据同步需求分析
        2.2.3 文件数据同步需求分析
        2.2.4 可视化大屏需求分析
    2.3 异构数据同步系统的整体架构设计
        2.3.1 历史数据同步子系统概述
        2.3.2 实时数据同步子系统概述
        2.3.3 文件数据同步子系统概述
        2.3.4 可视化大屏子系统概述
    2.4 异构数据同步系统的整体功能设计
    2.5 异构数据同步任务数据库设计
    2.6 本章小结
第三章 基于Spark的历史数据同步子系统的研究与实现
    3.1 研究的动机与设计目标
        3.1.1 研究动机
        3.1.2 设计目标
    3.2 基于Spark的历史数据同步子系统技术架构设计
    3.3 设计实现流程
    3.4 基于Spark的历史数据同步子系统的详细实现
        3.4.1 数据源读取模块
        3.4.2 数据过滤处理模块
        3.4.3 数据装载模块
        3.4.4 Web平台模块
    3.5 本章小结
第四章 基于Storm的实时数据同步子系统的研究与实现
    4.1 研究的动机与设计目标
        4.1.1 研究动机
        4.1.2 设计目标
    4.2 基于Storm的实时数据同步子系统技术架构设计
    4.3 设计实现流程
    4.4 基于Storm的实时数据同步子系统的详细实现
        4.4.1 日志解析模块
        4.4.2 异步传输模块
        4.4.3 数据处理模块
        4.4.4 数据仓库模块
        4.4.5 Web平台模块
    4.5 本章小结
第五章 基于HDFS的文件数据同步子系统的研究与实现
    5.1 研究的动机与设计目标
        5.1.1 研究动机
        5.1.2 设计目标
    5.2 基于HDFS的文件数据同步子系统技术架构设计
    5.3 设计实现流程
    5.4 基于HDFS的文件数据同步子系统的详细实现
        5.4.1 文件上传模块
        5.4.2 元数据管理模块
        5.4.3 实现数据读写模块
    5.5 本章小结
第六章 基于Quartz定时任务的可视化大屏子系统的研究与实现
    6.1 研究的动机与设计目标
        6.1.1 研究动机
        6.1.2 设计目标
    6.2 基于Quartz定时任务的可视化大屏子系统技术架构设计
    6.3 设计实现流程
    6.4 基于Quartz定时任务的可视化大屏子系统的详细实现
        6.4.1 自定义统计指标模块
        6.4.2 可视化大屏配置模块
        6.4.3 可视化大屏模块
    6.5 本章小结
第七章 异构数据同步系统的系统展示与测试
    7.1 测试环境
    7.2 功能测试
        7.2.1 基于Spark的历史数据同步子系统功能测试
        7.2.2 基于Storm的实时数据同步子系统功能测试
        7.2.3 基于HDFS的文件数据同步子系统功能测试
        7.2.4 基于Quartz定时任务的可视化大屏子系统功能测试
    7.3 性能测试
    7.4 本章小结
第八章 总结与展望
    8.1 本文工作总结
    8.2 本文的不足及展望
参考文献
致谢
攻读学位期间取得的研究成果



本文编号:3900681

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3900681.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50b8b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com