基于Spark的空间聚类算法的并行化优化研究与应用

发布时间:2021-01-07 00:15
  在计算机的软硬件技术高速发展下,如今已经进入了大数据信息阶段,传统的数据处理在面对数据规模较大的处理任务时,其执行速度和效率非常低甚至根本无法完成处理任务,分布式计算进而出现。目前主流分布式计算框架有Spark、Hadoop;常见集群计算模块有HDFS(Hadoop Distributed File System)分布式文件存储系统;Spark中特有的RDD(Resilient Distributed Datasets)弹性分布式数据集结构;Yarn资源调度引擎;MapReduce并行计算框架等等,以上所有模块的出现使得面对大数据时代的并行计算任务更加迅速且高效。对数据中隐含信息的进一步挖掘对我们现实应用和生产有着极其重要的实际指导意义。K-Means空间聚类分析作为空间数据挖掘技术中的一个重要方法,也是空间数据挖掘领域的重点研究方向之一。与此同时,传统的数据分析方法也无法在集成式环境下直接运行,这也是目前学术界和行业界在大数据领域研究的热点之一。另外,基本K-Means聚类算法采用Random方式确定簇类中心,使得该算法聚类结果稳健性不佳并且对样本离群点很敏感,严重甚至导致聚类失败。... 

【文章来源】:浙江工业大学浙江省

【文章页数】:95 页

【学位级别】:硕士

【部分图文】:

基于Spark的空间聚类算法的并行化优化研究与应用


并行计算框架图

流程图,流程图,分布式计算,节点


浙江工业大学硕士学位论文10进行分发到每个节点上,这种分布式计算方式具有很高的容错和安全可靠性。MapReduce并行计算体系构成主要由两部分组成:Job-Trackers和Task-Trackers。下图2-2显示了MapReduce主要执行过程以及数据流向。图2-2MapReduce执行流程图Figure2-2.MapReduceexecutionflowchartJob-Tracker是运行在主节点上的,因此在一个完整的分布式计算作业当值只有一个,它是主要负责将一个完整的任务进分解成多个子任务,然后将这些任务分发到各个节点上由Task-Tracker执行;另外,如果在某一个节点上任务执行失败,Job-Tracker会给失败的任务重新指定节点来执行。Task-Tracker就是执行Job-Tracker分配的子任务,主要负责上图中Mapper和Reducer的运行,并将任务执行状态向Job-Tracker进行汇报。Mapper是负责对Input数据进行解析,传递给开发人员脚本中的map()函数,如果只有Map过程没有后续的Reduce过程,那么数据结果直接写进HDFS,如果后面有Reduce过程,将MapOutput结果写到本地磁盘,然后再执行Reduce操作。Reducer是对Mappper后的结果进行运算。先要从本地磁盘中读取MapOutput,然后将数据进行shuffle等操作,最终按照groupBy传递给开发人员脚本中的reduce()函数。2.2.2分布式文件系统HDFSHDFS(HadoopDistributedFileSystem)是统一管理分布在集群上的文件系统,该分布式存储模块具有以下属性:能够存储较大文件:“大”一般指GB、TB级别,而实际应用场景中的

结构框图,结构框图,文件


基于Spark的空间聚类算法的并行化优化研究与应用11数据已经达到PB级别。采用流式的数据访问形式。在很多实际分析工作中,分析工作经常只读取大部分数据而不是全部数据,因此读取整个文件的时间在设计中更加重要。因此采用了One-Write、More-Read模式。适用于商业设备。Hadoop集群的部署不需要跟高端的设备,可运行于普通商用机器,使得部署工作相对容易实现,具有较低的节点失败率和较高的节点扩展能力。HDFS整体的结构框图如2-3图所表示。HDFS的系统结构是Master-Slave模式。多个Datanode负责实际数据存储和读写作业;一个Namenod完成元数据管理和命名空间构建。图2-3HDFS基本结构框图Figure2-3.BasicstructureblockdiagramofHDFSNamenode是主节点,一台服务器只有一个Namenode节点。该节点主要任务和作用是对全部的文件系统进行管理和维护,可以完成对文件的打开关闭和重命名操作,并且可以和客户端进行交互。值得注意的是Namenode在操作文件的过程中,数据对象是放在内存的。它是一整个文件系统的总入口,当客户端对文件进行查询时,Namenode先要对客户端发来的相关信息进行确认,通过后才可以对文件进行操作。当文件是分布式存在不同的集群节点主机上时,也是通过Namenode对文件系统的命名空间进行操作来实现文件之间的关联的。Datanode是数据节点,一台服务器中可以有多个Datanode,它是文件存储的最小单元。当整个计算任务被分成许多子任务的时候,对应的数据文件也被


本文编号:2961511

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2961511.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc7dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com