基于hadoop的网站用户行为分析系统设计与实现
发布时间:2017-04-06 08:05
本文关键词:基于hadoop的网站用户行为分析系统设计与实现,,由笔耕文化传播整理发布。
【摘要】:在大型的企业和互联网公司中,每天都会产生非常多的日志文件,数据的量级早已突破了TB (Terabyte)的范畴,如何解决日志数据分散的问题,如何快速而高效的处理这些日志中的数据,如何和业务数据库相互结合,将用户的访问行为、动作偏好分析出来,已经是每一个开始接触大数据的公司都需要考虑的问题。这些问题的解决,可以使企业在发展的路上更清晰的了解自身,能使平时累积的数据为公司带来更大的商业价值。本文从数据分析人员的角度出发,研究企业中常用的数据分析技术和方案,同时参照大数据环境下不断涌现出的各种新兴技术和工具,将各种技术的特点进行分析,提出了利用它们的配合来优化用户行为数据分析的方案,最后设计出一套涵盖数据收集、数据处理、数据计算、数据可视化的用户行为分析系统。本文主要研究和完成的主要工作包括:(1)对系统中所需的相关技术工具进行分析,包括数据收集部分中的Flume、 Kafka,构建数据仓库的MySQ LInfobrigh、Hive,可用于数据计算的Pig,Impa、Spark,生成的可视化图表的Kibana及用于它源数据存储分析和管理的 Elasticsearch等,通过整理它们的特点,确定最后整个系统中对于技术工具的选择。(2)构建数据仓库,通过对不同种类不同类型的日志文件做格式的梳理、数据的清洗,产生格式标准的干净数据文件,将其和从业务数据库导入的数据相互配合,来构建每个产品的数据集,形成数据仓库,以此作为整个用户行为分析系统的核心数据。(3)设计和研发自动的数据可视化工具,将我们在数据仓库之中产生的数据,自动映射至Elasticsearch的文件系统,同时,在Kibana系统里生成默认的图表,解决常规数据可视化方案操作繁琐的问题。依照本文设计方案来构建的用户行为分析系统已在国内某社区互联网公司部署使用,经过数月的运行,情况稳定,效果良好,大大提升了数据分析人员的工作效率,让针对用户行为的分析变的更简单,分析人员也更专注于分析时的逻辑。
【关键词】:大数据管理 行为分析 日志处理 大数据存储 数据可视化
【学位授予单位】:中国科学院大学(工程管理与信息技术学院)
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP393.092
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-17
- 1.1 研究背景与意义11-12
- 1.2 本课题的研究进展12-14
- 1.2.1 OLTP与OLAP12-13
- 1.2.2 OLAP与广义的数据分析13-14
- 1.3 本文主要研究内容14-17
- 第二章 系统相关技术分析17-35
- 2.1 Hadoop核心技术分析17-20
- 2.1.1 分布式数据存储技术17-19
- 2.1.2 分布式数据计算技术19-20
- 2.1.3 资源调度与任务管理20
- 2.2 基于Hadoop的数据收集技术20-23
- 2.2.1 数据收集的方法与策略20-21
- 2.2.2 分布式的收集策略21-22
- 2.2.3 流式数据分发策略22-23
- 2.3 基于Hadoop的数据仓库技术23-30
- 2.3.1 数据仓库的意义和特点23-25
- 2.3.2 数据清洗技术分析25-27
- 2.3.3 数据仓库构建技术分析27-30
- 2.4 数据可视化相关技术30-33
- 2.4.1 可视化的意义30
- 2.4.2 数据预载可视化技术30-32
- 2.4.3 数据动态可视化技术32-33
- 2.5 本章小结33-35
- 第三章 网站用户的行为分析35-45
- 3.1 用户行为分析意义35-36
- 3.1.1 网站用户行为的特点35-36
- 3.1.2 行为分析的目的36
- 3.2 网站用户行为构成与分类36-39
- 3.2.1 网站用户行为的构成36-37
- 3.2.2 用户浏览型行为分析37-38
- 3.2.3 用户业务型行为分析38-39
- 3.3 用户行为分析方法39-43
- 3.3.1 通过用户行为细分用户40-42
- 3.3.2 通过用户行为进行用户画像42-43
- 3.4 本章小结43-45
- 第四章 网站用户行为分析系统设计与实现45-79
- 4.1 行为分析系统需求分析45-47
- 4.1.1 系统介绍及功能需求45
- 4.1.2 数据收集和存储功能需求45-46
- 4.1.3 数据计算功能需求46-47
- 4.1.4 数据可视化功能需求47
- 4.2 系统架构设计47-54
- 4.2.1 系统整体架构设计47-48
- 4.2.2 数据采集功能设计48-52
- 4.2.3 数据存储功能设计52-53
- 4.2.4 数据可视化功能设计53-54
- 4.3 数据仓库架构设计54-60
- 4.3.1 用户主题仓库的设计与建设54-56
- 4.3.2 问题主题仓库的设计与建设56-57
- 4.3.3 回答主题仓库的设计与建设57-58
- 4.3.4 访问主题仓库的设计与建设58-60
- 4.4 系统架构的实现与部署60-77
- 4.4.1 对HDFS的配置和优化60-61
- 4.4.2 对Hive的配置和优化61-63
- 4.4.3 Impala和Hive的互相搭配63-65
- 4.4.4 针对Spark的修改和优化65-67
- 4.4.5 通过YARN管理计算资源的分配67-70
- 4.4.6 对数据仓库中数据的预处理70-73
- 4.4.7 可视化图表生成服务实现与部署73-77
- 4.5 系统部署环境77-78
- 4.6 本章小结78-79
- 第五章 系统的实际应用及评估79-93
- 5.1 系统运行环境79-83
- 5.1.1 硬件环境79-81
- 5.1.2 软件环境81-83
- 5.2 部署实施83-88
- 5.2.1 数据收集与存储的部署83-85
- 5.2.2 数据仓库的构建85-86
- 5.2.3 计算工具的集成86-87
- 5.2.4 可视化服务的部署与设置87-88
- 5.3 效果评估88-92
- 5.3.1 数据收集的效果评估88-89
- 5.3.2 计算能力的效果评估89
- 5.3.3 数据可视化的效果评估89-92
- 5.4 本章小结92-93
- 第六章 结论与展望93-95
- 6.1 论文工作总结93
- 6.2 未来工作展望93-95
- 参考文献95-99
- 致谢99-101
- 个人简历、在学期间发表的论文与研究成果101
【参考文献】
中国期刊全文数据库 前10条
1 陈峰科;孙众毅;池明e
本文编号:288522
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/288522.html