基于云计算平台Hadoop的聚类神经网络算法的研究与实现
发布时间:2017-11-21 06:06
本文关键词:基于云计算平台Hadoop的聚类神经网络算法的研究与实现
更多相关文章: Hadoop 并行化 聚类 Spark 神经网络
【摘要】:随着互联网技术的迅猛发展,推动了互联网的广泛应用和普及,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长,促进了云计算技术的诞生和发展,Apache Hadoop等开源云平台伴随着大数据时代的到来而出现,数据分析已经成为企业决策的重要支撑,如何快速有效地从海量数据中挖掘出有用的信息将显得十分得迫切和重要了。其中聚类分析和神经网络算法是数据挖掘的核心技术,传统的数据挖掘技术由于受到计算机自身性能以及编程模型的约束,无论从效率上,还是从计算复杂度上都已无法满足海量信息的处理需要,云计算技术的发展为聚类分析、神经网络算法提供了新的研究方向[1],形成云挖掘。本文首先主要研究在Linux操作系统下部署Hadoop集群,创新点是将聚类算法MapReduce并行化。由于聚类算法比较繁多,本文从k均值聚类算法入手,按照MapReduce编程模型将上述算法进行了并行化。并行化后的算法应用在Hadoop云计算平台,通过对UCI数据库的Wine数据集进行文本聚类处理,实验表明MapReduce并行化后的K-means聚类算法大大提高了运行速度。然后主要研究在Hadoop YARN上部署Spark集群,创新点是将神经网络算法在Spark平台上并行化过程进行设计及实现,本文从BP神经网络入手,通过任务调度实现任务并行化,通过DAGScheduler,TaskScheduler等进行作业调度,按照DAG划分为不同的Stage,每个Stage划分为并发执行的一组Task(ShuffleMapTask和Result Task)。使用资源管理平台YARN进行资源调度,因为Spark通过引入基于工作集的RDD数据模型及基于内存的运算模式[2],适合大量的迭代计算,并行化后的算法应用在Hadoop云计算平台,采用入侵检测数据集Kddcup进行了分类处理,实验表明并行化后的BP神经网络算法大大提高了运行速度。
【学位授予单位】:贵州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP183
,
本文编号:1209911
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1209911.html