移动互联网大规模流量数据分布式处理与流量分析
发布时间:2017-05-27 11:08
本文关键词:移动互联网大规模流量数据分布式处理与流量分析,由笔耕文化传播整理发布。
【摘要】:随着移动互联网的发展,移动互联网逐渐超过PC平台,成为互联网的主要入口,并且因其的移动性,成为了咨询、社交、贸易、游戏等等各种行业的信息交流中心。相应的,移动互联网的市场也在逐渐扩大。移动互联网的快速发展,使得研究移动互联网的特性,发现移动互联网与传统有线网络的区别成为了急需解决的问题。有线网已经被证明其分布具有复杂网络的幂律特性,移动互联网是否有复杂网络的相关特性或者其他特性,这些特性能否进一步被应用与流量识别等领域都需要研究。此外移动互联网丰富繁多的应用也是其一大特点,移动互联网中应用的作用,应用与流量,应用与网络和用户的关系都亟需研究。 但手机网民的快速增长和移动互联网使用的增多,带来了大量的移动互联网数据,每日记录的流量数据以GB甚至TB速度增长,如何处理大规模的数据,从中挖掘出有用的信息,成为了必须要面对的问题,而分布式处理技术对此提供了廉价可靠的解决思路。传统的机器学习算法已经证明了其在很多领域可以发挥巨大的作用,但面对移动互联网大规模的数据量,传统的机器学习算法需要分布式实现才能应用于现有的数据。流量识别也是网络的研究热点之一。传统的流量识别是通过分析包数据实现的,未关注流量之间的联系。能否分析挖掘移动互联网数据,发现流量的关系,为流量识别提出新思路也是本文研究的重点之一。 本文针对移动互联网特性复杂网络特性不明的问题,研究分析了移动互联网的特性,发现了用户交互对流量贡献的以及服务器的集中性。针对DBSCAN分布式算法通信量过大的问题,提出了优化方法,在不影响聚类结果的前提下,降低了通信量同时也降低了计算量。针对传统流量识别技术未关注流量图中的互相联系的问题,通过研究分析得出流量图服务器的聚类特性,并且服务器具有很高的纯洁度,提出了流量识别问题可以转为对服务器的识别,并通过聚类算法对服务器进行了聚类及识别,结果显示有很高的正确率。
【关键词】:分布式处理 聚类算法 移动互联网 流量识别
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN929.5;TP393.01
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-14
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-12
- 1.3 本文的组织结构12-14
- 第二章 分布式处理14-21
- 2.1 MapReduc编程模型14-16
- 2.2 图分布式计算16-19
- 2.3 广度优先遍历19-21
- 第三章 流量数据及其基本特性21-31
- 3.1 网络流量数据与建图21-22
- 3.2 流量图的度分布22-24
- 3.3 流量图的特性24-31
- 3.3.0 流量图基本属性24-25
- 3.3.1 用户和流量的分布轮廓25-26
- 3.3.2 流量图的度分布26-28
- 3.3.3 流量图的强度分布28-30
- 3.3.4 服务器集中度的增长特性30-31
- 第四章 分布式聚类算法与服务器识别31-44
- 4.1 DBSCAN算法的分布式实现31-34
- 4.2 服务器的特性34-40
- 4.2.1 不同类型应用流量图的基本属性34-35
- 4.2.2 服务器提供的应用数35
- 4.2.3 服务器拓扑结构的相似性与多样性35-38
- 4.2.4 应用内部的聚类特性38-39
- 4.2.5 服务器行为39-40
- 4.3 分布式kmeans与结果分析40-44
- 4.3.1 分布式kmeans算法的实现与应用40-41
- 4.3.2 结果分析41-44
- 第五章 总结与展望44-45
- 5.1 总结44
- 5.2 对未来的展望44-45
- 参考文献45-47
- 致谢47
【参考文献】
中国期刊全文数据库 前6条
1 於跃成;王建东;郑关胜;陈斌;;基于约束信息的并行k-means算法[J];东南大学学报(自然科学版);2011年03期
2 蔡君;余顺争;;基于复杂网络社团划分的网络流量分类[J];计算机科学;2011年03期
3 鲁伟明;杜晨阳;魏宝刚;沈春辉;叶振超;;基于MapReduce的分布式近邻传播聚类算法[J];计算机研究与发展;2012年08期
4 毛国君;曹永存;;基于数据概要描述的分布式数据流聚类模型与算法[J];计算机科学;2013年06期
5 于明;朱超;;利用半监督近邻传播聚类算法实现P2P流量识别[J];哈尔滨工程大学学报;2013年05期
6 张剑;曹萍;寿国础;;网络流量识别的自适应分级滑动窗决策树算法[J];计算机应用研究;2013年08期
本文关键词:移动互联网大规模流量数据分布式处理与流量分析,由笔耕文化传播整理发布。
,本文编号:399739
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/399739.html