基于Spark的城市热点基站流量分析系统的研究与应用
发布时间:2020-05-16 12:15
【摘要】:近年来,移动互联网迅猛发展,已经成为人们生活中不可或缺的一部分。基站作为用户和互联网连接的枢纽,基站提供的网络服务质量的好坏直接影响了用户的使用体验。如何评估城市范围内不同区域不同时间的网络服务质量,识别出城市范围内的热点基站是运营商需要关注的问题。对城市范围内基站流量、连接人数、网址访问类别等特征的时空规律分析为运营商在改善网络服务质量、提高网络资源利用率、未来网络设施规划等方面提供了指导作用。本文从移动基站流量数据出发,提出了一种基于熵权法的热点基站定义方法,在此基础上,对热点基站的时间分布、空间分布等做了研究。本文使用了朴素贝叶斯算法对移动互联网中网址进行分类,使用了 TF-IDF算法探究不同类型的网址访问对热点基站的重要性。对人群移动、人群分布的研究在城市规划、交通建设等方面有着重要的意义。本文首先使用了三种基于时间序列的模型对基站的连接人数进行了预测,并比较了三种模型的性能优劣。然后提出了一种基于基站时空特征的连接人数预测方法,实验表明,本文提出的算法在大部分的基站数据集中的表现优于仅使用时间序列的算法。大数据环境下,传统的数据处理工具已经不再适用,本文借助开源大数据框架Hadoop来完成数据处理工作,然而开源大数据处理工具在安全性、权限控制、结果展示等方面存在着不足。基于这一问题,本文开发了基于Spark的流量分析系统,在web端集成了Spark Shell、Spark SQL、Spark作业提交三个功能,为包括但不限于流量分析的大数据分析提供了便利。
【图文】:
逦Rack邋n逡逑图2-2邋HDFS邋HA架构图逡逑由图2-2我们可以看到,HDFS的HA是基于Zookeepei?集群实现的。active逡逑节点的元数据分为两部分,一部分是合并后的fcimage,一部分是刚写入的edits。逡逑HA机制将edits的数据放到Zookeeper集群中,standby节点通过Zookeepei?不断逡逑的将edits文件同步到自己的fsimage中。在NameNode节点上存在着一个监控逡逑进程来监控NameNode的状态,,一旦发现NameNode故障,即进行主备切换,避逡逑免了邋NameNode的单点故障。逡逑>邋DataNode逡逑7逡逑
逡逑Spark邋SQL的架构如图2-4所示,Spark邋SQL基于多种执行引擎(虽然目前逡逑仅支持Spark执行引擎,但设计上,Catalyst是支持多种执行引擎的,比如逡逑MapReduce引擎等)、多种SQL解析器,面向用户提供了类似Hive的CLI以及逡逑SQL服务接口,向上提供JDBC服务等。面向开发人员提供了邋SQL邋DSL邋API。逡逑2.3数据采集系统逡逑本文所使用的数据集是由笔者实验室参与研发的流量监控与采集系统逡逑(Traffic邋Monitor邋System,邋TMS)在中国北方某省骨干网采集得到,采集系统的逡逑架构如图2-5所示,所采集的流量分为两种:一种是手机、平板等通过基站连接逡逑互联网产生的流量,一种是个人电脑等固定设备通过核心交换机连接到互联网产逡逑生的流量。对于通过基站产生的流量,会先传递给SGSN邋(ServingGPRS邋Support逡逑Node
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN929.5
【图文】:
逦Rack邋n逡逑图2-2邋HDFS邋HA架构图逡逑由图2-2我们可以看到,HDFS的HA是基于Zookeepei?集群实现的。active逡逑节点的元数据分为两部分,一部分是合并后的fcimage,一部分是刚写入的edits。逡逑HA机制将edits的数据放到Zookeeper集群中,standby节点通过Zookeepei?不断逡逑的将edits文件同步到自己的fsimage中。在NameNode节点上存在着一个监控逡逑进程来监控NameNode的状态,,一旦发现NameNode故障,即进行主备切换,避逡逑免了邋NameNode的单点故障。逡逑>邋DataNode逡逑7逡逑
逡逑Spark邋SQL的架构如图2-4所示,Spark邋SQL基于多种执行引擎(虽然目前逡逑仅支持Spark执行引擎,但设计上,Catalyst是支持多种执行引擎的,比如逡逑MapReduce引擎等)、多种SQL解析器,面向用户提供了类似Hive的CLI以及逡逑SQL服务接口,向上提供JDBC服务等。面向开发人员提供了邋SQL邋DSL邋API。逡逑2.3数据采集系统逡逑本文所使用的数据集是由笔者实验室参与研发的流量监控与采集系统逡逑(Traffic邋Monitor邋System,邋TMS)在中国北方某省骨干网采集得到,采集系统的逡逑架构如图2-5所示,所采集的流量分为两种:一种是手机、平板等通过基站连接逡逑互联网产生的流量,一种是个人电脑等固定设备通过核心交换机连接到互联网产逡逑生的流量。对于通过基站产生的流量,会先传递给SGSN邋(ServingGPRS邋Support逡逑Node
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN929.5
【相似文献】
相关期刊论文 前10条
1 孙建顺;;基于SPARK课程理念优化足球教学的实践探索——以小学足球正脚背运球为例[J];教学月刊小学版(综合);2017年09期
2 陈虹君;谢彩云;;基于Spark的大数据实验室建设的研究与实施[J];教育现代化;2016年37期
3 余涛;刘泽q
本文编号:2666722
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2666722.html