基于Spark的实时高效处理算法在互联网用户行为分析平台中的应用
发布时间:2020-06-14 23:26
【摘要】:随着互联网技术的普及和飞速发展,人们的日常生活已经逐步走入电子化、轻量化和高效化。互联网技术定义了新型的工作方式和娱乐模式,并随着衍生的用户行为和需求,不断进步,不断超越,强有力地推动了当前时代的发展。互联网的用户行为分析中,涵盖了人类学、社会学及心理学等知识,若能够充分高效地使用这些庞大的用户行为数据,对其进行有序化、标量化地挖掘和分析,则可以让企业更加详细地了解用户的行为习惯、更精准地判断出企业运营、营销环境等问题,让企业对自身政策的决断更加准确和高效,进而为用户提供更优良的服务。本文首先介绍了互联网用户行为分析平台的概念及一些相关的理论基础,包括Spark体系架构和计算模式、Spark图计算框架、谱聚类算法、Hive的原理及DubboRPC框架。其次,在互联网用户行为分析平台的基础上,解决了一系列现实生活中的实际问题,具体如下:针对于用户上网终端类型识别问题,本文利用Spark大数据处理技术,并基于用户上网数据中的OUI、厂商信息、终端型号等特征数据,提出了终端识别算法,实现了对用户上网终端类型的识别;针对于用户上网流量采集设备的区域归类问题,本文通过SparkGraphx图计算组件和SparkCore技术,实现了两种比对归并算法并进行了性能分析;针对于智慧机场调度车的分析问题,本文利用Hive数据仓库技术及SparkSQL的结合,实现了对智慧机场被调度人群轨迹数据的分析与转换,为应用展现提供了一系列指标;本文在最后,通过DubboRPC框架,利用参数传输的方式,为互联网用户行为分析平台搭建了一个灵活通用的监测系统,来实现平台的实时状态监测与异常告警。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP393.0
【图文】:
组件具体说明如下:逡逑1)数据存储:RDD中文名为弹性分布式数据集,是Spark实现数据存储键概念。RDD通过HDFS文件系统来实现数据的存储,分布在集群上,可视作为一"1、规模较为庞大的数组。RDD也可以通过Hive,邋HBase,邋Cassanda实现数据存储。逡逑2)逦API:邋Spark是由Scala语言开发完成的,对夕卜提供了邋Scala、Java、Pytho种编程语言的API,用来满足各类开发人员的编程需求。与HadoopapReduce编程模型相比较,Spark的RDD算子提供了更多种类的数据操作,包括flatMap、reduce等操作,而基于MapReduce执行的多个串行任务也通过一个Spark邋Application下的RDD算子的多步骤操作来实现,这从一定上缩减了开发人员的编程难度,缩短了编程时间。逡逑3)资源管理:Spark既可以部署在Yam集群上,使用Yarn集群的资源管调度功能,也可以部署在分布式计算框架如Mesos上。逡逑.1.3弹性分布式数据集RDD逡逑RDD是Sark体系架构中的重要组成概念,其中文名称为弹性分布式数
第二章相关理论基础逦逡逑随着流动计算架构支持的服务越发庞大时,各种资源浪费问题、容量评估问逡逑渐出现,此时迫切需要一个基于访问压力实时管理集群容量的调度中心,来逡逑整体集群的使用率,解决方案则是提高机器利用率的资源调度和治理中心逡逑A)。如图2-8即为利用Dubbo实现服务治理的架构图。逡逑Dubbo服务治理逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TP393.0
【图文】:
组件具体说明如下:逡逑1)数据存储:RDD中文名为弹性分布式数据集,是Spark实现数据存储键概念。RDD通过HDFS文件系统来实现数据的存储,分布在集群上,可视作为一"1、规模较为庞大的数组。RDD也可以通过Hive,邋HBase,邋Cassanda实现数据存储。逡逑2)逦API:邋Spark是由Scala语言开发完成的,对夕卜提供了邋Scala、Java、Pytho种编程语言的API,用来满足各类开发人员的编程需求。与HadoopapReduce编程模型相比较,Spark的RDD算子提供了更多种类的数据操作,包括flatMap、reduce等操作,而基于MapReduce执行的多个串行任务也通过一个Spark邋Application下的RDD算子的多步骤操作来实现,这从一定上缩减了开发人员的编程难度,缩短了编程时间。逡逑3)资源管理:Spark既可以部署在Yam集群上,使用Yarn集群的资源管调度功能,也可以部署在分布式计算框架如Mesos上。逡逑.1.3弹性分布式数据集RDD逡逑RDD是Sark体系架构中的重要组成概念,其中文名称为弹性分布式数
第二章相关理论基础逦逡逑随着流动计算架构支持的服务越发庞大时,各种资源浪费问题、容量评估问逡逑渐出现,此时迫切需要一个基于访问压力实时管理集群容量的调度中心,来逡逑整体集群的使用率,解决方案则是提高机器利用率的资源调度和治理中心逡逑A)。如图2-8即为利用Dubbo实现服务治理的架构图。逡逑Dubbo服务治理逡逑
【相似文献】
相关期刊论文 前10条
1 袁帅;;社交网络用户行为分析[J];通讯世界;2017年01期
2 张治宇;;互联网宽带用户行为分析系统的设计与应用研究[J];数字通信世界;2017年08期
3 唐箭;;基于用户行为分析的云计算计费系统的分析与设计[J];辽宁经济职业技术学院(辽宁经济管理干部学院学报);2009年05期
4 吴恺;苏新宁;邓三鸿;;大数据、云计算与用户行为分析[J];数字图书馆论坛;2013年06期
5 张国权;颜燕红;;基于用户行为分析的交流充电桩设计研究[J];大众文艺;2017年04期
6 丁筱;;网络用户行为分析专利技术[J];中国新通信;2016年04期
7 邓博存;陈s
本文编号:2713519
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2713519.html