基于Hadoop的离线数据分析平台设计与实现
发布时间:2021-11-13 03:33
近几年,随着电子商务的飞速发展,用户所产生的日志数据与日俱增。但原始的海量数据存在大量的噪音、不一致、甚至垃圾数据,需要将数据进行清洗、过滤、解析等一系列过程,才能凝练出具有应用价值的信息。针对上述问题,本文设计并实现了一套基于Hadoop的离线数据分析平台,实现了离线数据分析平台的数据收集模块、数据解析模块以及数据展示模块。其中数据收集模块主要通过编写JavaScript文件使用户的操作行为触发自定义方法来收集用户数据;数据解析模块主要运用Hadoop技术中的MapReduce编程模型和Hive脚本对数据进行解析处理,并将数据按照自定义的八个分析角度进行具体计算,达到数据解析的主要功能实现;数据展示模块则主要通过将解析后数据与开源的HighCharts图表相结合的方式展示在平台页面中,便于对数据解析结果的探究工作。由此,电商网站通过对本文所搭建平台的使用,可使其得出是否存在用户流失问题、会员中性别或年龄段占比问题、用户对各个浏览器以及手机系统使用的偏好问题、会员订单量的地区分布问题、网站页面是否因用户体验不舒服造成浏览层级较少问题、节日或营销活动销售额占比以及订单量对比问题等。并通过...
【文章来源】:河北工程大学河北省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
平台具体过程图
第 3 章 离线数据分析平台的设计块的具体工作流程可概括为:编写收集数据信息的面按钮以及浏览前端页面的行为能够触发JavaScrip后,将 JavaScript 文件收集到的数据通过 sdk 工具包 Linux 系统的某个文件中。最后,使用 Flume日志收文件,将文件写进 Hadoop 的 HDFS 文件系统中,并旦日志文件发生变化,Flume 系统就会将变化的数据。数据收集模块流程图如图 3-2 所示:
河北工程大学硕士学位论文并将清洗后的数据导出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的数据,然后将数据经过自定义编写MapReduce 文件或 Hive 文件进行数据解析计算,最后将分析后的数据分别导MySQL 数据库中。数据解析模块流程图如图 3-3 所示:
【参考文献】:
期刊论文
[1]大数据的应用现状与未来展望[J]. 白建森. 电脑迷. 2018(09)
[2]利用Mysql存储过程方法产生模拟表数据[J]. 俞海. 电脑知识与技术. 2018(20)
[3]基于Nginx技术的直播平台[J]. 陆亮. 视听界(广播电视技术). 2018(03)
[4]Hadoop综述[J]. 李元亨,邹学玉. 电脑知识与技术. 2018(09)
[5]Sqoop数据收集与入库系统的应用[J]. 杨彬. 电子制作. 2017(21)
[6]大数据分析对电子商务营销的促进意义[J]. 陈悦. 产业与科技论坛. 2017(16)
[7]基于Hive的支付SDK日志分析系统的设计研究[J]. 王建辉,李涛. 计算机应用与软件. 2017(07)
[8]基于Hadoop的分布式文件系统[J]. 陈忠义. 电子技术与软件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系统设计与实现[J]. 陈飞,艾中良. 软件. 2016(12)
[10]关于Mybatis持久层框架的应用研究[J]. 荣艳冬. 信息安全与技术. 2015(12)
硕士论文
[1]基于Hive的日志分析系统的实现与优化[D]. 王建辉.南京邮电大学 2017
[2]日志数据分析系统的设计与实现[D]. 许长福.北京交通大学 2017
[3]基于大数据平台的电信用户行为日志分析研究[D]. 袁丹.成都理工大学 2017
[4]基于Hadoop的电信大数据分析的设计与实现[D]. 曹茜茜.西安科技大学 2015
[5]基于Hadoop的Web日志的分析平台的设计与实现[D]. 付伟.北京邮电大学 2015
[6]HBase存储的研究与应用[D]. 冯晓普.北京邮电大学 2014
[7]Spring框架技术分析及应用研究[D]. 翟剑锟.中国科学院大学(工程管理与信息技术学院) 2013
本文编号:3492235
【文章来源】:河北工程大学河北省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
平台具体过程图
第 3 章 离线数据分析平台的设计块的具体工作流程可概括为:编写收集数据信息的面按钮以及浏览前端页面的行为能够触发JavaScrip后,将 JavaScript 文件收集到的数据通过 sdk 工具包 Linux 系统的某个文件中。最后,使用 Flume日志收文件,将文件写进 Hadoop 的 HDFS 文件系统中,并旦日志文件发生变化,Flume 系统就会将变化的数据。数据收集模块流程图如图 3-2 所示:
河北工程大学硕士学位论文并将清洗后的数据导出到 Hadoop 的 Hbase 中或者映射成 Hive 表。第二步,Hbase/Hive 中提取出上一步整理完的数据,然后将数据经过自定义编写MapReduce 文件或 Hive 文件进行数据解析计算,最后将分析后的数据分别导MySQL 数据库中。数据解析模块流程图如图 3-3 所示:
【参考文献】:
期刊论文
[1]大数据的应用现状与未来展望[J]. 白建森. 电脑迷. 2018(09)
[2]利用Mysql存储过程方法产生模拟表数据[J]. 俞海. 电脑知识与技术. 2018(20)
[3]基于Nginx技术的直播平台[J]. 陆亮. 视听界(广播电视技术). 2018(03)
[4]Hadoop综述[J]. 李元亨,邹学玉. 电脑知识与技术. 2018(09)
[5]Sqoop数据收集与入库系统的应用[J]. 杨彬. 电子制作. 2017(21)
[6]大数据分析对电子商务营销的促进意义[J]. 陈悦. 产业与科技论坛. 2017(16)
[7]基于Hive的支付SDK日志分析系统的设计研究[J]. 王建辉,李涛. 计算机应用与软件. 2017(07)
[8]基于Hadoop的分布式文件系统[J]. 陈忠义. 电子技术与软件工程. 2017(09)
[9]基于Flume的分布式日志采集分析系统设计与实现[J]. 陈飞,艾中良. 软件. 2016(12)
[10]关于Mybatis持久层框架的应用研究[J]. 荣艳冬. 信息安全与技术. 2015(12)
硕士论文
[1]基于Hive的日志分析系统的实现与优化[D]. 王建辉.南京邮电大学 2017
[2]日志数据分析系统的设计与实现[D]. 许长福.北京交通大学 2017
[3]基于大数据平台的电信用户行为日志分析研究[D]. 袁丹.成都理工大学 2017
[4]基于Hadoop的电信大数据分析的设计与实现[D]. 曹茜茜.西安科技大学 2015
[5]基于Hadoop的Web日志的分析平台的设计与实现[D]. 付伟.北京邮电大学 2015
[6]HBase存储的研究与应用[D]. 冯晓普.北京邮电大学 2014
[7]Spring框架技术分析及应用研究[D]. 翟剑锟.中国科学院大学(工程管理与信息技术学院) 2013
本文编号:3492235
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3492235.html