当前位置:主页 > 科技论文 > 软件论文 >

基于即时通信业务的时空特征研究与分析平台实现

发布时间:2021-09-25 09:51
  近年来我国科学技术和信息化产业高速发展,以手机为代表的移动设备快速普及,移动互联网业务涉及到生活的各个方面,人类对手机等移动设备的依赖程度不断提高。移动网络运营商收集的流量数据是关于人类习惯的丰富信息源,对其进行分析与研究,一方面可以了解城市特征,促进城市规划,帮助移动运营商进行蜂窝基站的规划与建设等;另一方面,研究人员通过挖掘互联网业务信息及用户行为特征,可以帮助企业发掘更多的潜在用户。本论文中,主要利用从移动运营商提供的深度包解析数据中解析出的即时通信数据,搭建大数据分析处理平台,分析即时通信业务的用户的行为特征,以及从时空维度进行城市网络活动和地理区域分析,主要内容包括:一、蜂窝无线网络大数据平台的搭建。基于目前主流的海量数据处理技术Hadoop和Spark,并依据移动蜂窝小区数据的存储及计算的需求,搭建了一套用于存储和处理分析蜂窝移动数据的大数据平台。本文将大数据处理平台划分为数据存储与传输模块、数据处理模块及数据工作流模块三个模块,在开源的大数据组件的基础上进行二次开发,实现了Spark Query、Job Submit、Autoflow和Data Transfer等工具。大... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于即时通信业务的时空特征研究与分析平台实现


图2-2?Spark相关功能??

依赖关系


Spark是由加州伯克利大学开发的分布式计算引擎,Spark几乎继承了??MapReduce的全部优点,并在具有比MapReduce更快的处理速度和更能丰富的??功能,Spark的主要功能如图2-2所示,包括了进行流计算的Spark?Streaming、??机器学习库MLlib、图计算GraphX等。??:";:;;:;';;;::..:??图2-2?Spark相关功能??Spark为用户提供了以弹性分布式数据集(Resillient?Distributed?Dataset,RDD)??为基础的规范编程结构。RDD实现了以类似本地操作数据集的方式对分布式数??据集进行操作,它表示的是不可变的、已被分区并能被并行处理的数据集合,每??个分区(Partition)作为对RDD操作的最小数据单位。??用户对RDD的操作一般分为两种,分别是转换操作(Transformations)和行??动操作(Actions),转换操作的返回值还是一个RDD,使用了链式调用的设计模??式,常见的转换操作有map、filter、flatmap等;行动操作返回的结果一般是一个??集合或者一个值等,常见的行动操作有count、reduce、collect等。??对RDD进行不同的转换操作,可能会产生RDD之间不同的依赖关系,RDD??的依赖关系包括窄依赖(Narrow?Dependency)和宽依赖(Wide?Dependency)两??种

平台,架构,逻辑,数据


?J??图2-4大数据分析平台逻辑架构??图2-4展示了大数据分析平台的逻辑架构,逻辑上将平台分为三部分:数据??存储和传输模块、数据工作流模块和数据分析模块,物理上可以分为远程的分布??10??


本文编号:3409497

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3409497.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cd4f8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com