当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的网络流量分析系统的研究与应用

发布时间:2017-06-14 01:13

  本文关键词:基于Hadoop的网络流量分析系统的研究与应用,,由笔耕文化传播整理发布。


【摘要】:移动互联网时代为人们的信息交流提供了极大的便利,也在深刻地改变着人们的社交方式。分析移动用户的上网数据可以帮助我们了解用户的喜好、预测用户的行为、理解移动网络的特点并预测移动互联网的发展。随着网络带宽的提高,移动资费的下调,用户使用移动互联网产生的数据越来越多,传统的流量分析技术已无法满足要求,如何采集、存储和分析这些海量的信息是一个非常大的挑战,需要引入更高效、更可靠的面向大数据的处理方式和方法。对于海量流量数据,使用云计算技术来存储和处理数据是一个最优的解决方案,Hadoop是当前使用最为广泛的云计算技术实现框架。 在此背景下,本文基于移动互联网真实海量用户数据,提出海量流量分析的云计算解决方案—基于Hadoop的流量分析系统—FLAS,以解决海量流量数据的存储和分析难题;为了优化系统和保持系统稳定运行,我们提出了Hadoop集群监控机制-ZooManager系统,以解决分布式集群的管理、监控、告警及优化等问题;为了进一步优化Hadoop集群,提出了一种在云计算环境下预测MapReduce作业运行时间与CPU资源消耗的模型,该模型可以在云计算环境下预测系统性能。在设计和实现了分析海量数据的FLAS系统和监控Hadoop集群的ZooManager系统,并从云计算资源角度优化集群后,我们将研究成果应用于实际流量分析环境中,深入研究了移动互联网流量与用户特性,以及移动互联网的复杂网络特性。 本文的主要研究内容和创新点如下: (1)根据实际离线流量分析特点,使用云计算技术设计基于Hadoop的离线流量分析系统解决海量流量数据的存储和分析难题 为了解决移动互联网海量用户流量数据的存储和分析难题,所提出的基于Hadoop的离线流量分析系统有以下三个特色: 第一个特色为,适用于结构化/半结构化(比如流记录)类型文件的分析和处理。 第二个特色为,在数据上传模块,使用自行研发的TMS(Traffic Monitoring System)来采集镜像报文数据,并生成流记录,并由UpLoader上传至HDFS。 第三个特色为,在数据分析模块,为了简化代码开发流程,自行开发了一套用于表示数据分析程序的高级语言,只需要输入简单的类似SQL的语句就可以轻松完成各类流量分析工作。 最后从作业效率和容错能力验证了整个系统的可用性,并总结了当前系统的瓶颈与缺陷。 (2)为提高流量分析系统可用性,设计分布式集群的管理、监控、告警和优化系统,以保证基于Hadoop的流量分析系统的稳定和高效运行 Hadoop集群的运营与维护对使用者来说一直是极大的挑战。为了保证集群正常、稳定和高效的运行,我们设计和开发了一个Hadoop集群监控系统—ZooManager,提供分布式集群的管理、监控、告警和优化功能,该系统可以采集基础数据,使用不同算法将其转化为直观的便于理解的指标,自行存储监控数据,分析数据,发现异常,并告警。同时还开发了展示告警和监控指标以及图形的界面供管理人员使用。监控系统可以帮助我们从资源的角度了解整个系统当前和历史的运行情况,发现资源运行瓶颈,为优化作业提出合理的建议。 (3)根据云计算作业资源消耗模式,提出了一种可以在云计算环境下预测MapReduce作业运行时间与CPU资源消耗的模型,以预测云计算环境下作业的资源消耗 为了进一步优化Hadoop集群和FLAS系统,研究了MapReduce的资源消耗模式,并提出了一种预估Hadoop的MapReduce作业的CPU利用率和运行时间的模型。该模型使用多项式回归的方法,可以在云计算环境下,对不同配置的MapReduce作业的CPU利用率和运行时间做出预判。我们使用不同配置条件下CPU密集型的Hadoop基准测试验证了该模型的有效性,最后使用SSE,MAPE,RMSE和R2四种评估方法计算了模型预测的精准度。 (4)使用真实海量移动互联网用户数据,深入分析移动互联网流量与用户特性,从多个维度理解用户行为特征 当前使用真实海量移动互联网数据分析国内移动网络流量特性的研究非常少,我们使用中国某典型城市全市连续一周的数据,所分析的数据量超过10TB,研究结果具有可靠性、实用性与真实性。 从时间、流特征和用户特性三个维度开展研究。对流特征维度的用户达到访问数分布使用泊松回归模型拟合。然后,从数据使用、移动性和Web服务使用三个角度研究用户特性:在数据使用方面,重点研究了heavy user的行为;在移动性方面,将移动范围大小不同的用户分为不同的组并分别进行研究;在Web服务使用方面,将Web服务按类型分为11种类别,并分析用户的使用情况。之后对数据使用、移动性和Web服务使用三个方面进行两两关系的分析,从数据资源和无线资源消耗的角度发现了很多有意义的结论。最后对于用户使用Web服务行为进行了更深入的分析,创新性地提出“兴趣簇”概念,并使用“归一化熵”来衡量用户访问兴趣的分散程度。 (5)从复杂网络角度,构建移动互联网网络结构,研究其复杂网络特性 构建移动互联网的拓扑结构是网络建模的关键,之前传统线网的相关研究并不能应用于移动互联网之中,需要我们针对移动互联网开展深入的研究。本文使用移动互联网的海量和真实流数据,从复杂网络角度深入研究移动互联网及其典型应用的结构和特性,发现其一般规律并建模。首先我们根据移动互联网内用户端和服务端所承担的不同角色构造了一个用户-服务端网络拓扑结构,并分别构建了全网、浏览类应用和即时通信类应用的网络拓扑图,分析了节点度分布和节点权值分布。之后我们单独研究了浏览类不同类别网站的复杂网络特性以及BA模型特性。
【关键词】:云计算 Hadoop 移动互联网 流量特性研究
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP393.06
【目录】:
  • 摘要4-7
  • ABSTRACT7-14
  • 第一章 绪论14-28
  • 1.1 大数据时代14-16
  • 1.1.1 大数据的发展——From Big Data to Rich Data14-15
  • 1.1.2 计算的发展历史15-16
  • 1.2 Hadoop的简介16-20
  • 1.2.1 Hadoop的架构16-19
  • 1.2.2 Hadoop存在的主要问题19-20
  • 1.3 大数据背景下的移动互联网20-23
  • 1.3.1 移动互联网发展历史20-21
  • 1.3.2 全球移动数据流量发展趋势21-23
  • 1.3.3 国内移动互联网现状23
  • 1.4 论文主要内容和创新点23-25
  • 1.5 论文结构25-28
  • 第二章 基于Hadoop的流量分析系统28-50
  • 2.1 背景知识28-33
  • 2.1.1 Hadoop分析移动流量数据的可行性29-31
  • 2.1.2 Hadoop在国内外的使用情况31-32
  • 2.1.3 Hadoop在流量分析领域的应用32-33
  • 2.1.4 小结33
  • 2.2 FLAS系统设计33-35
  • 2.2.1 整体需求33-34
  • 2.2.2 系统设计34-35
  • 2.3 FLAS系统模块实现35-40
  • 2.3.1 数据采集与存储35-36
  • 2.3.2 数据上传模块36-37
  • 2.3.3 数据分析模块37-40
  • 2.4 系统效率测试40-45
  • 2.4.1 实验环境40
  • 2.4.2 TopN算法40-42
  • 2.4.3 节点、数据量与作业效率研究42-43
  • 2.4.4 容错能力分析43-45
  • 2.5 FLAS系统存在的问题45-47
  • 2.5.1 Hadoop的瓶颈46-47
  • 2.5.2 流量分析系统存在的问题47
  • 2.6 本章总结47-50
  • 第三章 面向Hadoop集群的管理系统50-64
  • 3.1 Hadoop管理和监控工具简介50-54
  • 3.1.1 Zookeeper50
  • 3.1.2 Ganglia50-51
  • 3.1.3 Nagios51
  • 3.1.4 JMX51-52
  • 3.1.5 Cacti52
  • 3.1.6 Ambari52-53
  • 3.1.7 Chukwa53
  • 3.1.8 小结53-54
  • 3.2 基于Hadoop的流量分析系统的监控需求概述54
  • 3.3 监控系统ZooManager的基础监控数据54-55
  • 3.4 监控系统ZooManager整体架构55-57
  • 3.4.1 被监控节点55-56
  • 3.4.2 监控节点56-57
  • 3.5 监控系统ZooManager的数据存储57
  • 3.6 数据获取与计算57-60
  • 3.6.1 数据采集57-58
  • 3.6.2 数据计算58-60
  • 3.7 数据呈现60-62
  • 3.8 本章总结62-64
  • 第四章 基于Hadoop的流量分析系统的资源预测与优化64-80
  • 4.1 概述64-68
  • 4.1.1 Hadoop参数64-65
  • 4.1.2 Hadoop工作负载指标65-66
  • 4.1.3 国内外研究现状66-68
  • 4.2 基准测试介绍68-69
  • 4.3 MapReduce框架的资源使用69-74
  • 4.3.1 WordCount作业69-71
  • 4.3.2 TestDFSIO读作业71-72
  • 4.3.3 TestDFSIO写作业72-74
  • 4.4 计算环境下的资源和时间建模74-76
  • 4.4.1 参数选择74
  • 4.4.2 资源提取74-75
  • 4.4.3 多项式回归建模75-76
  • 4.5 计算环境下的资源和时间预测与实验分析76-78
  • 4.5.1 实验环境77
  • 4.5.2 实验结果与分析77
  • 4.5.3 结果评估77-78
  • 4.6 本章总结78-80
  • 第五章 移动互联网流量与用户特征分析80-108
  • 5.1 概述80-83
  • 5.1.1 移动互联网流量分析80-81
  • 5.1.2 国内外相关研究81-83
  • 5.2 数据描述与分析方法简介83-86
  • 5.2.1 数据描述84-85
  • 5.2.2 分析方法介绍85-86
  • 5.3 用户到达访问数分布与建模86-89
  • 5.3.1 用户到达特征分析86-87
  • 5.3.2 泊松回归过程介绍87
  • 5.3.3 用户到达访问数分布模型建立87-88
  • 5.3.4 模型评估88-89
  • 5.4 用户特征单维度分析89-94
  • 5.4.1 用户数据使用行为分析89-90
  • 5.4.2 用户移动性分析90-92
  • 5.4.3 用户Web服务访问行为偏好分析92-94
  • 5.5 用户喜好行为多维度关系分析94-98
  • 5.5.1 用户数据使用与移动性关系94-95
  • 5.5.2 用户Web服务使用与移动性关系95-97
  • 5.5.3 用户数据使用与Web服务使用关系97-98
  • 5.6 用户访问行为分类98-103
  • 5.6.1 算法描述98-100
  • 5.6.2 用户访问Web服务的行为分类100-101
  • 5.6.3 分类结果分析101-103
  • 5.7 不同Web服务类别的用户访问行为103-105
  • 5.8 本章总结105-108
  • 第六章 移动互联网的复杂网络特性研究108-130
  • 6.1 背景108-110
  • 6.1.1 复杂网络的特性108-109
  • 6.1.2 复杂网络的基本概念109-110
  • 6.2 复杂网络的应用110-112
  • 6.2.1 复杂网络模型110-111
  • 6.2.2 复杂网络与互联网111
  • 6.2.3 相关研究111-112
  • 6.3 构造移动互联网的网络结构112-114
  • 6.4 移动互联网典型应用复杂网络特征114-121
  • 6.4.1 移动互联网应用分布114-115
  • 6.4.2 网络拓扑基本参数分析115-117
  • 6.4.3 典型应用的网络节点度分布117-119
  • 6.4.4 网络节点单边平均权值分布119-121
  • 6.5 浏览类应用特征深入研究121-128
  • 6.5.1 网站分类121-122
  • 6.5.2 网络节点的度分布122-123
  • 6.5.3 网络节点的权值分布123-125
  • 6.5.4 BA模型125-128
  • 6.6 本章总结128-130
  • 结束语:总结与展望130-132
  • 参考文献132-140
  • 附录:缩写词说明140-142
  • 致谢142-144
  • 攻读学位期间发表的学术论文目录144

【共引文献】

中国期刊全文数据库 前10条

1 李红;;基于Google Bigtable的海量数据存储探索[J];鞍山师范学院学报;2013年04期

2 叶强;孙忠林;魏永山;;一种基于Hadoop的大规模图直径算法[J];电脑开发与应用;2013年12期

3 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期

4 孙成强;Yongseong Cho;Jongsun Choi;Jaeyoung Choi;;Towards delivery of situational information in distributed environments[J];Journal of Measurement Science and Instrumentation;2013年03期

5 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期

6 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期

7 张毅;曹晶晶;齐莉娜;吴必虎;;旅游目的地虚拟网络结构特征研究——以黄山市为例[J];北京大学学报(自然科学版);2013年06期

8 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期

9 熊金石;李建华;沈迪;郭威武;;节点崩溃条件下信息系统安全风险传播[J];电光与控制;2014年01期

10 唐宏;;基于MapReduce的大规模流量分析系统的设计[J];电信科学;2013年12期

中国重要会议论文全文数据库 前7条

1 祁昊颖;;大数据时代电信运营商文件系统新思考[A];2013年中国信息通信研究新进展论文集[C];2014年

2 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年

3 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年

4 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年

5 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年

6 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年

7 汪中琳;乔自知;郭景赞;;移动运维支撑系统的互联网思维重构[A];2014全国无线及移动通信学术大会论文集[C];2014年

中国博士学位论文全文数据库 前10条

1 刘瑶;社会网络特征分析与社团结构挖掘[D];电子科技大学;2013年

2 乐冠;面向服务系统的自适应资源管理技术研究[D];北京邮电大学;2013年

3 杨雅君;动态图数据挖掘与查询算法的研究[D];哈尔滨工业大学;2013年

4 陈t

本文编号:448100


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/448100.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d9c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com