基于MapReduce模型的并行计算平台的设计与实现

发布时间：2020-04-13 02:25

【摘要】： 随着互联网的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。设计一个通用可扩展的平台,来有效地处理海量数据,不断地从中挖掘出对运营商有价值的信息,成为互联网企业发展的必然选择。 MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。本文在分析MapReduce模型的基础上,结合自身的特点,提出了一种并发处理海量数据的更通用、更可扩展的平台。首先,我们提出了海量数据并发处理平台的体系结构。该结构为客户端-任务调度与执行层-数据存储层三层架构。在客户端,通过可配置的XML文档提交用户任务。在进行任务调度与执行层设计时,我们首先提出了几点关键的策略,如通用平台策略、负载均衡策略、中间结果处理策略和容错策略。接着,我们提出了主控节点-分派节点.服务节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分派节点负责解析、分派任务,获取任务执行结果;服务节点负责任务的具体执行。三种节点互相配合,共同完成数据的并发处理。接着,我们设计了存储海量数据的分布式文件系统。分布式文件系统具有优异的性能和吞吐率,较高的稳定性和良好的可扩展性。最后,我们在已经搭建好的平台上,进行了若干测试系统性能的实验。我们通过单机与并发执行用户任务的对比实验,说明了并行计算平台的高效。我们通过执行不同类型的任务,说明了如何在集群规模一定的情况下,实现性能调优。
【学位授予单位】：浙江大学
【学位级别】：硕士
【学位授予年份】：2008
【分类号】：TP338.6

【引证文献】