基于Hadoop的BT业务流量精细识别及分析
发布时间:2017-04-08 23:17
本文关键词:基于Hadoop的BT业务流量精细识别及分析,,由笔耕文化传播整理发布。
【摘要】:对等网络(简称P2P)现阶段已成为互联网带宽中最大的消费者。作为P2P最主流的代表,BitTorrent(简称BT)协议所产生的流量已占到整个P2P网络的60%,并呈现出持续增长态势。在流量已呈现大数据特征的情况下,单纯判断BT流量是否存在,关联性弱,也过于笼统。更进一步,对BT业务流量进行更加精细化的识别与分类,获取BT资源服务器的相关属性和重要BT用户流量的分布情况,是十分必要的。既可以及时了解BT网络内资源的调度情况,又能够监控BT流量的分布特征及变化,无论是对BT应用本身的管理,还是对用户使用BT情况的监控,都有着非常重要的意义。 本文首先介绍了目前BT流量识别领域的研究现状,阐述了现有方法的局限性。在对BT协议通信流程进行报文与流量特征两个层面详细分析的基础上,结合现有的DPI特征与行为特征两种流量识别方法,提出了一套完整的区分Tracker服务器与Peer的精细化流量分析方案。为了应对逐渐显现的大数据特征,本文实现的BT流量精细识别与分析系统使用了Hadoop系统和MapReduce分布式数据处理框架,超越了以往使用采样数据或主动测量的限制。本系统通过多个连续的MapReduce作业链实现海量网络流量数据中,Tracker服务器属性的提取与Peer详细流量信息的汇聚。在此基础上,使用分布式数据库HBase完成上述分析结果的存储与管理:设计并优化了表格结构及存储、查询逻辑,实现了支持可扩展的分析结果的高效存储与检索。本文最后对提出的BT精细化流量分析方法结果进行了直观的呈现,同时对Tracker属性,以及Peer流量分布特征进行了分析。
【关键词】:BT流量精细识别 MapReduce HBase 高效存储与检索
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.06
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-14
- 1.1 研究背景10
- 1.2 研究意义10-11
- 1.3 研究范围和内容11
- 1.4 论文组织结构11-14
- 第二章 BitTorrent概述及流量分析现状14-20
- 2.1 BitTorrent概述14-15
- 2.2 BitTorrent协议规范15-16
- 2.2.1 BitTorrent协议系统构成15-16
- 2.2.2 种子文件结构16
- 2.3 现有BitTorrent网络流量识别方法16-20
- 2.3.1 深层数据包检测(DPI)技术17
- 2.3.2 深度/动态流检测(DFI)技术17-18
- 2.3.3 现有BitTorrent流量识别方法及其局限性18-20
- 第三章 BitTorrent精细化流量分析20-48
- 3.1 BitTorrent完整通信流程20-21
- 3.2 Tracker服务器的识别21-28
- 3.2.1 Tracker交互过程分析21-26
- 3.2.2 Tracker服务器识别方法26-28
- 3.3 Peer用户的识别28-48
- 3.3.1 基于TCP的Peer交互过程分析29-36
- 3.3.2 基于UDP的Peer交互过程分析36-42
- 3.3.3 Peer间交互流量特征分析42-46
- 3.3.4 Peer用户流量识别方法46-48
- 第四章 基于MapReduce的海量BitTorrent流量分析系统48-62
- 4.1 Hadoop系统和MapReduce编程框架48-50
- 4.2 海量原始话单数据50-52
- 4.2.1 HTTP话单50-51
- 4.2.2 Rawflow话单51-52
- 4.3 MapReduce任务提取Tracker服务器52-53
- 4.4 MapReduce任务链提取Peer用户53-62
- 4.4.1 获取Peer使用BitTorrent时段54-55
- 4.4.2 Peer相关UDP流记录提取55-57
- 4.4.3 Peer完整UDP流量聚合57-58
- 4.4.4 Peer相关TCP流记录提取58-60
- 4.4.5 Peer完整TCP流量聚合60-62
- 第五章 BitTorrent流量分析数据存储与管理62-78
- 5.1 分布式列存储数据库HBase简介62-67
- 5.1.1 HBase构架63-64
- 5.1.2 HBase数据模型与物理模型64-67
- 5.2 Tracker服务器属性信息管理67-72
- 5.2.1 HBase表格设计67-69
- 5.2.2 数据导入逻辑69-70
- 5.2.3 数据查询逻辑70-72
- 5.3 Peer客户端流量信息管理72-78
- 5.3.1 HBase主数据表设计72-73
- 5.3.2 HBase索引表设计73-74
- 5.3.3 数据导入逻辑74-75
- 5.3.4 数据查询逻辑75-78
- 第六章 BitTorrent流量识别结果分析78-92
- 6.1 原始数据说明78
- 6.2 Tracker服务器识别结果78-84
- 6.2.1 Tracker服务器管理与检索78-80
- 6.2.2 Tracker服务器属性分析80-84
- 6.3 Peer识别结果84-92
- 6.3.1 Peer管理与检索84-86
- 6.3.2 Peer流量特征分析86-92
- 第七章 总结与展望92-94
- 参考文献94-96
- 致谢96-98
- 攻读学位期间发表的学术论文目录98
【参考文献】
中国期刊全文数据库 前7条
1 武子英;;基于QT的BitTorrent客户端下载工具设计与实现[J];长治学院学报;2011年05期
2 徐恪;;P2P流量的监控与管理[J];中国教育网络;2006年07期
3 陈绣瑶;;DPI带宽管理技术的研究与应用[J];计算机与现代化;2010年09期
4 林子雨;赖永炫;林琛;谢怡;邹权;;云数据库研究[J];软件学报;2012年05期
5 荣辉桂;李明伟;蔡立军;;An early recognition algorithm for BitTorrent traffic based on improved K-means[J];Journal of Central South University of Technology;2011年06期
6 殷晓丽;田端财;;P2P流量识别技术分析[J];科技资讯;2009年08期
7 Wojciech Mazurczyk;Pawe Kopiczko;;基于实际测量的BitTorrent协议(英文)[J];中国通信;2013年11期
本文关键词:基于Hadoop的BT业务流量精细识别及分析,由笔耕文化传播整理发布。
本文编号:293917
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/293917.html