基于分布式架构的网络流量分析系统设计与实现
发布时间:2021-03-26 04:43
随着互联网的快速发展和大数据时代的来临,数据正在呈现出爆发式的增长,其价值也正在被不断挖掘和利用,数据在某种程度上决定着企业的发展方向,网络作为数据交换和共享的基础条件,正在承载着日益增长的数据传输需求,其性能决定着数据共享和交换效率。在庞大的网络数据和高速的网络传输面前,如何实现对网络数据的实时获取、存储和分析是网络流量分析必须面对的问题。当前,单台服务器的性能已经远远无法满足网络数据分析的要求,分布式网络数据获取和分析模式是该工作的发展方向和必要手段。因此,采用分布式结构是当前的必要选择。分布式网络流量分析系统将重点解决超高速条件下的网络数据获取、数据存储、数据分析及可视化等能力,并且采用松耦合的方式实现各功能模块的分布式部署。本文是以中科院高能物理所为背景,高能所每日数据传输超过10亿条以上,国内进口流量峰值在每十分钟152G以上,国外出口流量峰值在每十分钟126G以上,并且流量还在稳步上升。所以,现在需要一个统一流量计算系统,能够承受日益增长的流量,并且能够完整、稳定的统计流量系统,并且有可视化功能。针对以上问题,本文设计了一个基于分布式架构的网络流量分析系统。该系统利用Spa...
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
Spark生态圈
RDD划分分区
图 2. 3 RDD 宽窄依赖制布式计算框架都有着一个巨大挑战,那就是对整个框架现在大多数分布式系统都拥有基于细粒度的可变接口份到多个节点的机器上或者把记录的日志被分到多台点就是,在计算密集型任务时,数据的备份在磁盘上远变慢,并且会占据大量存储空间。 则是基于粗粒度转换操作,比如 map、filter 和 join 等相同操作,通过记录生成 RDD的整个转换操作(linea个 RDD 真实的数据结果来执行容错机制。如果一个么从这个 RDD 所依赖的分区中重新计算就可以得到这或者整个任务重新计算,从而提高计算时间。群
【参考文献】:
期刊论文
[1]基于NS3的分布式消息系统Kafka的仿真实现[J]. 马浩然. 软件. 2015(01)
[2]分布式同步系统Zookeeper的优化[J]. 唐海东,武延军. 计算机工程. 2014(04)
[3]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民. 软件学报. 2014(04)
[4]支撑日增万亿级消息的分布式系统[J]. 代志远. 程序员. 2014 (04)
[5]MapReduce:新型的分布式并行计算编程模型[J]. 李成华,张新访,金海,向文. 计算机工程与科学. 2011(03)
硕士论文
[1]基于Spark的大数据处理可视化工具的设计和实现[D]. 檀照望.北京邮电大学 2017
[2]基于Kafka的大规模流数据分布式缓存与分析平台[D]. 牛牧.吉林大学 2016
[3]海量数据存储和准实时查询系统设计与实现[D]. 齐方方.西南石油大学 2015
[4]基于云架构的分布式科技新闻发布系统[D]. 秘林.山东大学 2013
[5]Hadoop架构下数据挖掘与数据迁移系统的设计与实现[D]. 吕明育.上海交通大学 2013
[6]基于分布式计算平台的海量日志分析系统的设计与实现[D]. 孙寅林.西安电子科技大学 2012
本文编号:3100972
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
Spark生态圈
RDD划分分区
图 2. 3 RDD 宽窄依赖制布式计算框架都有着一个巨大挑战,那就是对整个框架现在大多数分布式系统都拥有基于细粒度的可变接口份到多个节点的机器上或者把记录的日志被分到多台点就是,在计算密集型任务时,数据的备份在磁盘上远变慢,并且会占据大量存储空间。 则是基于粗粒度转换操作,比如 map、filter 和 join 等相同操作,通过记录生成 RDD的整个转换操作(linea个 RDD 真实的数据结果来执行容错机制。如果一个么从这个 RDD 所依赖的分区中重新计算就可以得到这或者整个任务重新计算,从而提高计算时间。群
【参考文献】:
期刊论文
[1]基于NS3的分布式消息系统Kafka的仿真实现[J]. 马浩然. 软件. 2015(01)
[2]分布式同步系统Zookeeper的优化[J]. 唐海东,武延军. 计算机工程. 2014(04)
[3]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民. 软件学报. 2014(04)
[4]支撑日增万亿级消息的分布式系统[J]. 代志远. 程序员. 2014 (04)
[5]MapReduce:新型的分布式并行计算编程模型[J]. 李成华,张新访,金海,向文. 计算机工程与科学. 2011(03)
硕士论文
[1]基于Spark的大数据处理可视化工具的设计和实现[D]. 檀照望.北京邮电大学 2017
[2]基于Kafka的大规模流数据分布式缓存与分析平台[D]. 牛牧.吉林大学 2016
[3]海量数据存储和准实时查询系统设计与实现[D]. 齐方方.西南石油大学 2015
[4]基于云架构的分布式科技新闻发布系统[D]. 秘林.山东大学 2013
[5]Hadoop架构下数据挖掘与数据迁移系统的设计与实现[D]. 吕明育.上海交通大学 2013
[6]基于分布式计算平台的海量日志分析系统的设计与实现[D]. 孙寅林.西安电子科技大学 2012
本文编号:3100972
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3100972.html