基于Hadoop的海量日志数据准实时查询系统的设计与实现

发布时间:2022-07-29 19:11
  随着科学技术的发展,我们已经步入了一个信息爆炸的时代,同时,全世界产生的数据也以几何级的比例快速增长,人类已全面进入了大数据的时代。全球各个行业的企业也迅速认识到了数据的重要性,数据被各个企业纳入到了资产的范畴,产生了数据资产的概念,数据资产已成为企业的核心竞争力。如何围绕企业的大数据信息,构建低成本、高效率的大数据生态系统,成为了各个企业的重要任务。本文旨在以电信运营商运营域数据之一的用户手机上网日志为切入点,构建了一个大数据分析的原型系统,原型系统基于Hadoop的海量日志数据准实时查询系统的架构进行设计,并对主要模块进行了实现和验证。其设计原则是建设高性能的、完善的、开放的平台。针对系统功能及应用特点,对涉及到的相关技术,如HDFS、MapReduce、Hbase等Hadoop生态圈的原理和特性,本文也详细研究和探讨。根据系统实现情况及最终测试验证结果,表明采用Hadoop生态圈技术能够很好的支撑大数据分析平台的建设,完成从数据采集、分析处理至最终应用展现的全流程支撑。本文设计实现的基于Hadoop的海量日志数据准实时查询系统具有一定的实用性,较强的系统通用性和扩展性。 

【文章页数】:50 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 .研究背景和意义
    1.2 .国内外现状
    1.3 .论文工作及结构安排
        1.3.1 .本文主要研究工作
        1.3.2 .本文结构安排
第二章 Hadoop平台技术研究
    2.1 .Hadoop平台概述
    2.2 .Hadoop平台架构
    2.3 .HDFS介绍
    2.4 .MapReduce介绍
    2.5 .Hbase介绍
    2.6 .本章小结
第三章 系统设计
    3.1 .系统技术架构设计
    3.2 .系统数据流向设计
    3.3 .数据采集及加载
        3.3.1 .采集结构设计
        3.3.2 .接口规范定义
        3.3.3 .采集程序设计
        3.3.4 .数据加载
    3.4 .数据分析处理
        3.4.1 .数据模型构建
        3.4.2 .文件预处理及记录级校验
        3.4.3 .基于MapReduce的数据计算处理
    3.5 .基于Hbase的数据查询设计
        3.5.1 .基于Hbase特征的查询表设计
        3.5.2 .数据查询服务
    3.6 .本章小结
第四章 系统部署与验证
    4.1 .实验环境情况及部署
    4.2 .数据采集测试
    4.3 .数据文件合并及入库测试
    4.4 .数据分析计算测试
    4.5 .页面数据查询测试
    4.6 .系统整体性能评估
    4.7 .本章小结
第五章 总结与展望
    5.1 .总结
    5.2 .展望
参考文献
致谢



本文编号:3667021

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3667021.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44811***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com