当前位置:主页 > 管理论文 > 移动网络论文 >

基于聚类的网站访问数据分析技术及实现

发布时间:2020-04-09 10:33
【摘要】:近几年,云计算飞速发展,大数据处理技术也在不断成熟。与此同时,随着国内移动互联网市场规模不断扩大,用户数量也随之快速增长,并带来了海量的移动互联网数据。但大部分数据仍处于沉睡状态,基于此,如何利用大数据处理技术来承载海量网络数据处理业务,挖掘其潜在的应用价值,为用户提供个性化的服务,成为亟需解决的问题。针对网络海量数据处于待开发的状态,该技术主要面向应用开发商,对其产品在各种不同终端设备上用户产生的行为数据,利用大数据处理技术对其进行收集、清洗、过滤出有价值的信息,统计分析用户所需的各种信息,对应用开发商的一些决策提供比较可靠的数据支持。为了解决与日俱增的应用访问日志的存储与处理的问题,该平台采用“分布式”的框架,利用大数据技术实现系统的功能。该分析技术主要包括数据采集落地模块,通过自主开发的SDK实时采集数据+Nginx服务器实现数据落地的处理;数据收集和聚合模块模块,通过Flume的二次开发实现数据的非重复、无丢失收集到Kafka,进而将数据存储在HDFS上;hive数据清洗模块,自定义UDTF函数实现日志聚合体的拆分,中间结果通过Sqoop导出到MySql中;数据分析,Hive和Spark结合实现数据的离线分析、spark streaming实现准实时分析;azkaban job调度模块实现作业的定期调度等。本文所介绍的基于聚类的网站访问数据分析技术及实现已经经过详尽的系统测试,包含硬件、软件环境和功能性的测试,现在已正式投入使用。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;TP393.092

【参考文献】

相关期刊论文 前8条

1 董春涛;李文婷;沈晴霓;吴中海;;Hadoop YARN大数据计算框架及其资源调度机制研究[J];信息通信技术;2015年01期

2 何非;何克清;;大数据及其科学问题与方法的探讨[J];武汉大学学报(理学版);2014年01期

3 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期

4 薛洁;刘希玉;;数据挖掘技术与网上购物推荐系统[J];网络安全技术与应用;2011年03期

5 杨道衡;;数据挖掘与数据挖掘服务实现研究[J];现代商贸工业;2010年17期

6 赵莹莹;韩元杰;;Web日志数据挖掘中数据预处理模型的研究与建立[J];现代电子技术;2007年04期

7 王凯;渠芳;王辉;;利用Web挖掘技术实现个性化推送服务[J];情报杂志;2006年11期

8 张春红;;浅谈页面置换算法之LRU算法[J];廊坊师范学院学报;2006年04期



本文编号:2620641

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2620641.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8a4e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com