当前位置:主页 > 管理论文 > 移动网络论文 >

基于大规模图谱分析的海量网络流量数据挖掘

发布时间:2018-11-14 17:02
【摘要】:得益于以3G/4G为代表的无线通信技术的发展与普及、个人移动网络终端处理能力的增强以及个性化网络应用的日益丰富,移动互联网已经成为人们日常生活中重要的组成部分,以及获取、分享信息的主要渠道。这使得移动互联网业务流量在无线通信网络流量中所占的比例快速增加。在语音通信业务逐渐饱和的情况下,面临利润增长压力的移动网络运营商和服务提供商必须通过精细化的互联网业务流量经营,以达到提高用户ARPU (Average Revenue Per User用户平均收入)值,实现收入持续增长的目标。但目前网络运营商无论是用户量还是业务数据量都进入了一个海量数据时代,动辄以亿为单位计算的用户规模,结合早已超出语音、短信等传统业务范畴的丰富互联网业务,当今的无线通信网络时时刻刻都在产生着海量的流量数据,这些数据包括移动互联网网页数据、用户交互数据、设备产生的活动数据、DNS查询数据等等。这些数据与传统数据在三个不同的维度上呈现出了显著的不同特征:(1)数据量大小-大容量;(2)数据类型-多类型;(3)数据时效性-高时效。面对大容量、多类型、高时效的流量数据,传统的流量分析技术已经不能满足网络运营商的需求,需要采用面向海量数据处理的并行算法。在此背景下,本文提出了处理海量网络流量的分布式并行计算分析解决方法。分布式并行计算方法主要使用目前比较流行的Hadoop技术框架和Spark技术框架。Hadoop技术框架揭开了海量数据处理的新篇章,而Spark技术框架可以说是Hadoop技术框架的升级版本。Spark技术框架通过使用内存计算,使得对海量数据的处理更加快捷。本文根据不同的应用场景和问题需求使用不同的技术框架。同时,由于互联网应用爆炸性的增长,网络流量变得异常复杂。仅仅通过简单流量统计分析已经不能很好的揭示网络流量的内在特征。为了精细分析网络流量,揭示网络中各个功能实体间的复杂关系,本文将网络分析问题进行图谱建模,运用多种图谱分析方法来解决网络流量分析的实际问题,并将分析结果用图形进行可视化呈现。本文的主要研究内容和创新点如下:(1)根据用户网页浏览行为以及网页加载过程,对网页中的单元实体进行图形建模,并对该图模型进行分析,以便了解互联网实体间的关系。该模型构建系统具有以下三个特色:第一个特色为,对真实移动网络环境下的互联网实体进行统一的图形建模。如实反映互联网实体间的结构和关系。第二个特色为,基于该图模型可以进行多种应用分析,其中一个主要应用就是用户的点击请求识别。设计实现了一个并行的点击识别算法,算法可以从海量流量数据中准确的识别出用户的点击请求。第三个特色为,使用实验室自主研发的TMS (Traffic Monitoring System)来采集真实移动网络中的海量镜像报文数据进行实验。在实验参数的选择上,设计了一种自学习参数选择方法。实验验证了模型的可行性和模型应用的准确性。(2)整个互联网实体图是一个巨大的、稀疏、复杂图,为了揭示网络实体间的内部结构,以及对实体间的内部结构进行可视化,设计提出了基于依赖图的Web实体连接结构模式分析方法。对运营商真实网络环境下的海量流量数据进行图形建模,模型的规模是巨大的,不适合直接观察和分析,为此设计了基于依赖图的Web实体连接结构模式分析方法,来将图模型进行分解。分解的结果是具有紧密连接结构的、便于观察的小图。(3)图模型是物理实体的一种数学抽象形式,图模型的分析需要运用大量的数学计算和图形算法,为此设计了基于Spark计算框架的海量数据处理算法库,以此作为其他流量分析算法的基础。Spark计算框架相比于Hadoop计算框架具有更丰富的计算表达能力,因此设计实施了多种基于Spark计算框架的基本数学算法,包括矩阵乘法、矩阵求逆等。(4) DNS查询数据是网络流量分析的重要数据之一。将查询记录和返回结果进行图形建模,并将图形属性信息应用于恶意域名识别中。恶意域名识别是网络监管部门和网络运营商都十分关心的问题,但恶意域名隐蔽性极强、难于发现,需要综合恶意域名多方面的特性,通过有效的分类方法将其与正常域名进行分离,才能达到恶意域名识别的目的。为此设计使用了 DNS图模型的多个属性值,例如出度、入度、中心性等,作为域名分类的属性值,结合域名自身的特性对域名进行分类处理,最终发现DNS查询记录中的恶意域名。(5)对于移动网络运营商环境下的超高速流式数据,采用并行流式算法,对流量数据进行精细化分析。网络运营商的流量分析任务可以分为两大类:1.网络流量数据静态存储后的批量分析。2.超高速流式数据的实时在线分析。近年来随着网络技术的发展,运营商骨干网的链路已经大量采用1OOGbps端口。这给网络流量数据的实时性分析带来新的技术挑战,为此设计了快速流式流量分析算法,对运营商环境下的超高速流式数据进行分析,并对移动网页流量进行了精细化分析。
[Abstract]:......
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP393.0;TP311.13

【相似文献】

相关期刊论文 前10条

1 曹云海,熊华平,吴钧,杜召;网络流量数据管理系统的开发与应用[J];计算机系统应用;2002年06期

2 张大方;沈永坚;黎文伟;;一种基于历史记录的网络流量数据采样方法[J];湖南大学学报(自然科学版);2005年06期

3 吴亚东,孙世新;低分辨率小规模网络流量数据的混沌特性鉴别[J];计算机应用研究;2005年09期

4 杨波;刘渊;;基于算术平均值的网络流量数据采样方法[J];微计算机信息;2007年24期

5 张瑞;胡蓉;;基于季节时间序列模型的网络流量实证分析[J];四川文理学院学报;2012年05期

6 唐红,吴勇军;利用数据仓库技术实现网络流量数据分析[J];华中科技大学学报(自然科学版);2003年11期

7 欧阳e,

本文编号:2331773


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2331773.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22001***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com