基于Hive的电商多维分析系统的设计与实现
发布时间:2023-06-18 02:04
最近几年,我国大数据在政策、技术、产业、应用等多个层面都取得了显著进展,中国数字经济规模大幅增长。与此同时,电商互联网公司也掌握了其他行业和企业无法相比的大数据,拥有着最精准,最全面的用户数据,因此,运用巨量数据指导企业的运营和加速互联网产品的升级,也形成为了未来电商互联网公司向数据驱动服务和争夺市场份额的共识,而数据源的异构性以及PB乃至TB数量级历史数据的应用转化却对采用传统的企业数据仓库的多维分析带来了巨大的挑战。为了解决海量数据下传统基于大型服务器的数据仓库高额运维代价,以及凭借人员经验迭代互联网产品局限性,本文充分考虑电商用户数据的特点,设计并开发了基于Hive的电商多维分析系统,进而用数据驱动决策和智慧运营,提高数据资源的复用性,该系统实现了基于CDH的大数据平台架构,并在此平台之上实现基于Hive的四层数据仓库,通过分层建设数据仓库,大大提升了数据治理能力,保证了数据质量,优化了传统通过Linux下crontab的作业调度,集成Azkaban作业调度,全面监控数据运行,并实现了电商用户活跃等相关指标,论文的主要工作如下:1.本文研究了现有的大数据平台相关技术,搭建了基于C...
【文章页数】:100 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 论文课题背景
1.2 国内外研究现状
1.3 论文主要工作
1.4 论文组织架构
第二章 电商多维分析系统的关键技术
2.1 Hadoop简介
2.1.1 HDFS分布式文件系统
2.1.2 Mapreduce分布式计算框架
2.2 Hive数据仓库构建
2.2.1 Hive架构原理
2.2.2 Hive运行机制
2.2.3 数据仓库实施步骤
2.3 ETL技术简介
2.4 Druid即席查询
2.5 其他技术
第三章 电商多维分析系统的需求分析
3.1 系统概况
3.1.1 系统建设目标
3.1.2 建设原则
3.2 系统功能性需求分析
3.3 系统非功能性需求分析
第四章 电商多维分析系统概要设计
4.1 系统总体技术架构
4.2 系统基础平台设计
4.2.1 原始数据采集模块设计
4.2.2 平台数据存储模块设计
4.2.3 多源数据计算模块设计
4.3 系统OLAP设计
4.3.1 系统数据仓库层次
4.3.2 数据仓库的原始数据层
4.3.3 数据仓库的明细数据层
4.3.4 数据仓库的服务数据层
4.3.5 数据仓库的业务数据层
第五章 电商多维分析系统的实现
5.1 电商多维分析系统技术实现
5.2 电商多维分析子系统ETL实现
5.2.1 Flume日志采集详细实现
5.2.2 Sqoop结构化数据采集详细实现
5.3 电商多维分析系统数据仓库详细实现
5.3.1 ODS层数据仓库具体实施
5.3.2 DWD层数据仓库具体实施
5.3.3 DWS层数据仓库具体实施
5.3.4 ADS层数据仓库具体实施
5.4 用户行为多维维分析设计详细实现
5.4.1 活跃度用户具体实现及效果展示
5.4.2 忠诚用户分析实现及效果展示
5.4.3 用户转化率具体实现及效果展示
5.4.4 交易行为GMV统计分析具体实现及效果展示
第六章 系统测试
6.1 基于CDH的系统环境搭建
6.1.1 硬件平台
6.1.2 软件环境
6.1.3 集群部署
6.2 Azkaban全自动流水化任务调度
6.3 系统测试与验证
6.3.1 功能性验证测试
6.3.2 非功能性验证测试
第七章 总结与展望
7.1 论文总结
7.2 论文展望
参考文献
致谢
作者简介
1 作者简历
2 发明专利
学位论文数据集
本文编号:3834564
【文章页数】:100 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 论文课题背景
1.2 国内外研究现状
1.3 论文主要工作
1.4 论文组织架构
第二章 电商多维分析系统的关键技术
2.1 Hadoop简介
2.1.1 HDFS分布式文件系统
2.1.2 Mapreduce分布式计算框架
2.2 Hive数据仓库构建
2.2.1 Hive架构原理
2.2.2 Hive运行机制
2.2.3 数据仓库实施步骤
2.3 ETL技术简介
2.4 Druid即席查询
2.5 其他技术
第三章 电商多维分析系统的需求分析
3.1 系统概况
3.1.1 系统建设目标
3.1.2 建设原则
3.2 系统功能性需求分析
3.3 系统非功能性需求分析
第四章 电商多维分析系统概要设计
4.1 系统总体技术架构
4.2 系统基础平台设计
4.2.1 原始数据采集模块设计
4.2.2 平台数据存储模块设计
4.2.3 多源数据计算模块设计
4.3 系统OLAP设计
4.3.1 系统数据仓库层次
4.3.2 数据仓库的原始数据层
4.3.3 数据仓库的明细数据层
4.3.4 数据仓库的服务数据层
4.3.5 数据仓库的业务数据层
第五章 电商多维分析系统的实现
5.1 电商多维分析系统技术实现
5.2 电商多维分析子系统ETL实现
5.2.1 Flume日志采集详细实现
5.2.2 Sqoop结构化数据采集详细实现
5.3 电商多维分析系统数据仓库详细实现
5.3.1 ODS层数据仓库具体实施
5.3.2 DWD层数据仓库具体实施
5.3.3 DWS层数据仓库具体实施
5.3.4 ADS层数据仓库具体实施
5.4 用户行为多维维分析设计详细实现
5.4.1 活跃度用户具体实现及效果展示
5.4.2 忠诚用户分析实现及效果展示
5.4.3 用户转化率具体实现及效果展示
5.4.4 交易行为GMV统计分析具体实现及效果展示
第六章 系统测试
6.1 基于CDH的系统环境搭建
6.1.1 硬件平台
6.1.2 软件环境
6.1.3 集群部署
6.2 Azkaban全自动流水化任务调度
6.3 系统测试与验证
6.3.1 功能性验证测试
6.3.2 非功能性验证测试
第七章 总结与展望
7.1 论文总结
7.2 论文展望
参考文献
致谢
作者简介
1 作者简历
2 发明专利
学位论文数据集
本文编号:3834564
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3834564.html
最近更新
教材专著