当前位置:主页 > 管理论文 > 移动网络论文 >

基于MapReduce的网络流量分析系统及其性能优化研究

发布时间:2017-05-07 15:14

  本文关键词:基于MapReduce的网络流量分析系统及其性能优化研究,,由笔耕文化传播整理发布。


【摘要】:在互联网逐步走向大数据时代的今天,行业中的各个部分都在不断的受到大数据的冲击,网络流量分析也不例外。随着网络带宽的逐步提升,网络流量数据也在不断增加。现有的数据量已经远远超出普通服务器所能处理的范围,而且还有继续大幅增长的趋势。于是,使用大数据平台成为了势不可挡的趋势。Hadoop平台作为业界广泛接受的分析平台,成为了最佳的解决方案。 本文围绕Hadoop中MapReduce技术在网络流量分析中的应用展开,以实际生产环境为背景,设计了基于Hadoop的流量分析程序。程序以MapReduce为基础,实现了在大数据量情况下的数据分析,有效地将MapReduce的各项技术融入到分析程序中,使得分析程序更加高效、简洁。 为了进一步提高分析程序的效率,本文对MapReduce作业的实现进行了分析。通过分析MapReduce框架的执行流程,总结了影响MapReduce执行效率的主要因素及其对作业运行时间的影响。同时通过实验验证了这些结论,证明了分析的正确性。 最后,在分析结论和网络流量分析的任务特点的基础上,本文提出并实现了基于MapReduce的多作业合并组件。该组件主要针对网络流量分析中同一输入数据反复使用的场景,提供了一个接口简单的函数库,能让作业的编写者在几乎不需要修改代码的情况下,利用原生Hadoop框架,实现多个作业的合并运行。合并后的作业能通过一次读取输入数据,完成多个分析任务,从而有效地减少了数据读取所消耗的时间,明显地提高了分析任务的整体运行效率。同时依据实验,通过几个典型场景以及生产中使用的实际分析作业,验证了合并组件的效果,证明了这一解决方案的有效性。
【关键词】:网络流量分析 MapReduce效率分析 多作业合并
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.06
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • 第一章 绪论9-11
  • 1.1 研究背景9-10
  • 1.2 论文结构10-11
  • 第二章 Hadoop与MapReduce框架11-14
  • 2.1 MapReduce概述11-12
  • 2.1.1 MapReduce计算框架11-12
  • 2.2 MapReduce的应用与问题12-14
  • 2.2.1 MapReduce在网络流量分析中的应用12
  • 2.2.2 MapReduce在网络流量分析中的问题与改进12-14
  • 第三章 HTTP流量关联系统设计与实现14-29
  • 3.1 系统概述14-17
  • 3.1.1 系统设计14-15
  • 3.1.2 流量数据15-17
  • 3.2 Http流量关联系统17-24
  • 3.2.1 系统概览17-18
  • 3.2.2 关键算法18-23
  • 3.2.3 程序逻辑23-24
  • 3.3 HTTP流量分析24-29
  • 3.3.1 数据集24-25
  • 3.3.2 匹配结果的正确性分析25-27
  • 3.3.3 数据流量与content length关系27-29
  • 第四章 MapReduce执行效率分析29-41
  • 4.1 概述29
  • 4.2 Map端执行流程分析29-34
  • 4.2.1 代码分析29-31
  • 4.2.2 性能分析31-34
  • 4.3 Reduce端流程分析34-38
  • 4.3.1 代码分析34-37
  • 4.3.2 性能分析37-38
  • 4.4 作业运行测试38-41
  • 4.4.1 实验设计39
  • 4.4.2 实验结果39-41
  • 第五章 MapReduce多作业合并组件的设计41-55
  • 5.1 设计背景41
  • 5.2 目标与设计思路41-42
  • 5.3 整体架构42
  • 5.4 合并组件的配置接口42-43
  • 5.5 合并组件需要支持的内部接口43-44
  • 5.6 代理模块的设计44-48
  • 5.6.1 作业信息的保存与类加载44-45
  • 5.6.2 Mapper代理模块45-47
  • 5.6.3 Partitioner代理模块47
  • 5.6.4 Reducer代理模块47-48
  • 5.6.5 OutputFormat代理模块48
  • 5.6.6 其他MapReduce模块的代理模块48
  • 5.7 中间数据排序的优化48-50
  • 5.8 合并后的性能分析和测试50-55
  • 5.8.1 性能分析50-51
  • 5.8.2 测试集的选取51-52
  • 5.8.3 实验结果及分析52-55
  • 第六章 总结与展望55-57
  • 参考文献57-59
  • 致谢59-61
  • 攻读学位期间发表的学术论文目录61

【共引文献】

中国期刊全文数据库 前10条

1 刘静;李跃辉;杨苗苗;许静;;基于MapReduce的电信客户流失决策树算法研究[J];电脑知识与技术;2013年30期

2 蒋波涛;王艳东;;基于MapReduce的地图代数并行计算方法[J];测绘地理信息;2014年03期

3 姜凯强;冯霄月;;在数据挖掘中一种基于Mapreduce模型的Apriori算法研究[J];计算机光盘软件与应用;2014年14期

4 李帆;何洪林;任小丽;张黎;路倩倩;于贵瑞;;基于MapReduce的空间敏感性分析并行算法设计[J];地球信息科学学报;2014年06期

5 丁智;林治;;MapReduce编程模型、方法及应用综述[J];电脑知识与技术;2014年30期

6 杨勇;朱影;;一种基于MapReduce的粗糙集并行属性约简算法[J];重庆邮电大学学报(自然科学版);2015年01期

7 唐梦梦;吉根林;赵斌;;利用MapReduce的异常轨迹检测并行算法[J];地球信息科学学报;2015年05期

8 范敏;徐胜才;;基于云计算的医学图像检索系统[J];计算机工程与应用;2013年21期

9 王振;王雷;王宇;;基于虚拟磁盘块存储的分布式文件系统研究[J];华中科技大学学报(自然科学版);2013年S2期

10 范敏;徐胜才;;基于Hadoop的海量医学图像检索系统[J];计算机应用;2013年12期

中国博士学位论文全文数据库 前10条

1 刘灿由;电子海图云服务关键技术研究与实践[D];解放军信息工程大学;2013年

2 刘婷婷;面向云计算的数据安全保护关键技术研究[D];解放军信息工程大学;2013年

3 丁泽柳;一体化信息基础设施中面向MapReduce的递归层次结构数据中心网络研究[D];国防科学技术大学;2012年

4 狄浩;虚拟网络的高效和可靠映射算法研究[D];电子科技大学;2013年

5 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年

6 李刚;黑龙江省国土资源信息数据高效利用与服务研究[D];东北农业大学;2013年

7 刘锐;基于人脸图像稠密匹配的身份识别技术研究[D];中国科学技术大学;2014年

8 耿玉水;面向集团企业的数据集成模型构建方法研究[D];天津大学;2013年

9 韩泉叶;城市轨道交通线网应急安全保障关键技术研究[D];兰州交通大学;2014年

10 顾涛;集群MapReduce环境中任务和作业调度若干关键问题的研究[D];南开大学;2014年

中国硕士学位论文全文数据库 前10条

1 廖福蓉;基于任务备份的云计算任务调度算法研究[D];重庆大学;2013年

2 冯黎明;云环境下无线传感器网络服务研究[D];南京师范大学;2013年

3 但光祥;云计算环境下混合加密算法研究与实现[D];重庆大学;2013年

4 贾玉辉;面向语音交互的云计算系统的研究[D];中国海洋大学;2013年

5 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年

6 赵志龙;Hadoop容错能力测试平台的设计与实现[D];哈尔滨工业大学;2013年

7 李宪英;面向BIRIS-Cloud的资源管理框架的研究与实现[D];哈尔滨工业大学;2013年

8 章伟星;基于Hadoop的海量广告日志分析系统的设计与实现[D];哈尔滨工业大学;2013年

9 徐淑琦;基于MapReduce的高性能云计算任务调度技术的研究[D];北京工业大学;2013年

10 苏涛;Platform MapReduce的GUI的设计与实现[D];哈尔滨工业大学;2012年


  本文关键词:基于MapReduce的网络流量分析系统及其性能优化研究,由笔耕文化传播整理发布。



本文编号:350104

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/350104.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户11373***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com