基于Spark的网络数据分析系统研究与实现
发布时间:2021-06-25 02:37
随着现代社会互联网的高速发展,网络数据逐渐变得种类繁多且数量巨大,与此同时,新型攻击手段的不断涌现也使得网络安全问题变得更加棘手。因此,在大数据时代下,如何充分利用海量数据来实现对网络异常数据的分析与检测是一项非常重要的课题。近几年来随着人工智能技术的发展,利用深度学习等机器学习方法对海量数据进行分析能够取得比较好的效果。但与此同时,深度学习会带来非常大的计算资源的消耗。因此能够将深度学习能力与大数据处理能力结合在一起在网络数据分析中是非常重要的。针对上述问题,设计了一种基于Spark的网络数据分析系统。首先,将深度学习框架Keras与大数据处理平台Spark相结合,为Spark扩展深度学习能力,实现深度学习的分布式计算,使得大数据的获取与处理、数据模型的学习与应用都在一个统一的分布式集群中。其次,利用Spark Streaming流式计算的特点,系统能够对网络数据进行实时监控,对异常数据及时作出判断和响应。且通过对有效参数的调整控制实现对Spark Streaming实时计算的性能分析与预测。最后,对于Spark Streaming实时计算性能的优化,设计了一种批次时间间隔的动态调整...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
MapReduce框架
华 中 科 技 大 学 硕 士 学 位 论 发人员的工作效率。传统的单机深度学习框架已经无法满足人们对于海量数据分程应用中,许多公司以及研究人员开始将深度学习框架与大行结合,使其满足深度学习复杂的计算需求[22]。Michael I. Joaffe 深度学习库的基础之上建立了 SparkNet[23],利用 Java 来访la 来访问 Caffe 参数,用 ScalaBuff 来保持 Caffe 网络的动态结示。Master 将任务分发到 worker 上,每个 worker 使用单独练完成之后再将参数传给 Master。
华 中 科 技 大 学 硕 士 学 位 论 文分配到某个 worker 去执行。它的弹性体现在流水线操作上,即对 RDD 的操作有两种方法:转换(transformation)和动作(action)。转换操作在执行过程中采用惰性调度,只记录 RDD 之间的依赖关系,不会立即执行。在这个过程当中,开发人员可以弹性的处理 RDD 的分区。等到遇到动作操作的时候,才会根据前面的依赖关系,生成有向无环图 DAG,如图 2-1 所示,从起点开始将这一系列操作执行完成。由于在转换操作中导致的父 RDD 和子 RDD 的分区不同,RDD 之间的依赖关系被分为宽依赖和窄依赖。宽依赖是指父 RDD 的每一个分区只被子 RDD 的一个分区所使用,而窄依赖是指父 RDD 的分区被多个子 RDD 的分区所使用。
【参考文献】:
期刊论文
[1]基于多尺度主成分分析的全网络异常检测方法[J]. 钱叶魁,陈鸣,叶立新,刘凤荣,朱少卫,张晗. 软件学报. 2012(02)
[2]网络信息安全形势及相关热点问题探讨[J]. 黄元飞,吉利勇,金丽萍. 电信科学. 2009(02)
本文编号:3248320
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
MapReduce框架
华 中 科 技 大 学 硕 士 学 位 论 发人员的工作效率。传统的单机深度学习框架已经无法满足人们对于海量数据分程应用中,许多公司以及研究人员开始将深度学习框架与大行结合,使其满足深度学习复杂的计算需求[22]。Michael I. Joaffe 深度学习库的基础之上建立了 SparkNet[23],利用 Java 来访la 来访问 Caffe 参数,用 ScalaBuff 来保持 Caffe 网络的动态结示。Master 将任务分发到 worker 上,每个 worker 使用单独练完成之后再将参数传给 Master。
华 中 科 技 大 学 硕 士 学 位 论 文分配到某个 worker 去执行。它的弹性体现在流水线操作上,即对 RDD 的操作有两种方法:转换(transformation)和动作(action)。转换操作在执行过程中采用惰性调度,只记录 RDD 之间的依赖关系,不会立即执行。在这个过程当中,开发人员可以弹性的处理 RDD 的分区。等到遇到动作操作的时候,才会根据前面的依赖关系,生成有向无环图 DAG,如图 2-1 所示,从起点开始将这一系列操作执行完成。由于在转换操作中导致的父 RDD 和子 RDD 的分区不同,RDD 之间的依赖关系被分为宽依赖和窄依赖。宽依赖是指父 RDD 的每一个分区只被子 RDD 的一个分区所使用,而窄依赖是指父 RDD 的分区被多个子 RDD 的分区所使用。
【参考文献】:
期刊论文
[1]基于多尺度主成分分析的全网络异常检测方法[J]. 钱叶魁,陈鸣,叶立新,刘凤荣,朱少卫,张晗. 软件学报. 2012(02)
[2]网络信息安全形势及相关热点问题探讨[J]. 黄元飞,吉利勇,金丽萍. 电信科学. 2009(02)
本文编号:3248320
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3248320.html