Hadoop分布式计算平台架构分析与应用开发
发布时间:2021-04-30 03:24
Hadoop是由Apache软件基金会推出的一个用于实现大规模分布式计算的软件平台,它提供了一个分布式文件系统和并行执行环境,让用户便捷地在分布式环境下处理海量数据。现在该平台已被广泛应用于云计算领域。本文先从Hadoop平台的分布式文件系统,分布式计算模型,以及分布式环境下的任务控制三方面分析、论述该平台架构的基本工作原理以及计算过程,从整体上阐明Hadoop架构中主要成员的工作原理与实现方式。然后详细设计并实现了Hadoop平台下的验证性应用程序-基于Hadoop平台的针对超链接URL的网络爬虫。该应用程序可运行于Hadoop平台上,以分布式处理的形式对网页上的超链接地址进行指定深度的收集。该程序是对Hadoop平台下编程以及环境配置的一次有益实践。
【文章来源】:西南石油大学四川省
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景
1.2 课题研究的现状及发展趋势
1.3 论文的组织结构
第2章 相关技术及开发工具研究
2.1 HADOOP分布式计算平台
2.2 集成开发环境ECLIPSE
2.3 UNIX环境模拟软件CYGWN
第3章 HADOOP平台架构分析
3.1 HADOOP的工作方式及总体架构
3.2 HDFS的架构分析
3.2.1 NAMENODE分析
3.2.2 DATANODE分析
3.2.3 HDFS的读写过程
3.3 MAPREDUCE计算框架介绍与分析
3.3.1 MAP过程分析
3.3.2 REDUCE过程分析
3.4 HADOOP下的任务控制与调度
第4章 基于HADOOP平台开发的应用程序项目说明
4.1 引言
4.2 任务概述
4.3 项目的特点
4.4 需求规定
4.4.1 系统功能说明
4.4.2 对功能的一般性规定
4.4.3 对性能的一般性规定
4.5 系统设计概述
4.6 程序描述
4.6.1 DATA_STRUCTURE包
4.6.2 FETCH包
4.6.3 FETCHLIST包
4.6.4 INJECTOR包
4.6.5 VIEW包
4.6.6 GUI包
4.7 运行环境
4.7.1 硬件环境要求
4.7.2 软件环境要求
第5章 系统测试
5.1 HADOOP平台的配置情况
5.2 应用程序测试
5.2.1 测试环境
5.2.2 INJECT模块测试
5.2.3 GENERATE模块测试
5.2.4 FETCH模块测试
5.2.5 VIEW模块测试
第6章 结论
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果
本文编号:3168740
【文章来源】:西南石油大学四川省
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景
1.2 课题研究的现状及发展趋势
1.3 论文的组织结构
第2章 相关技术及开发工具研究
2.1 HADOOP分布式计算平台
2.2 集成开发环境ECLIPSE
2.3 UNIX环境模拟软件CYGWN
第3章 HADOOP平台架构分析
3.1 HADOOP的工作方式及总体架构
3.2 HDFS的架构分析
3.2.1 NAMENODE分析
3.2.2 DATANODE分析
3.2.3 HDFS的读写过程
3.3 MAPREDUCE计算框架介绍与分析
3.3.1 MAP过程分析
3.3.2 REDUCE过程分析
3.4 HADOOP下的任务控制与调度
第4章 基于HADOOP平台开发的应用程序项目说明
4.1 引言
4.2 任务概述
4.3 项目的特点
4.4 需求规定
4.4.1 系统功能说明
4.4.2 对功能的一般性规定
4.4.3 对性能的一般性规定
4.5 系统设计概述
4.6 程序描述
4.6.1 DATA_STRUCTURE包
4.6.2 FETCH包
4.6.3 FETCHLIST包
4.6.4 INJECTOR包
4.6.5 VIEW包
4.6.6 GUI包
4.7 运行环境
4.7.1 硬件环境要求
4.7.2 软件环境要求
第5章 系统测试
5.1 HADOOP平台的配置情况
5.2 应用程序测试
5.2.1 测试环境
5.2.2 INJECT模块测试
5.2.3 GENERATE模块测试
5.2.4 FETCH模块测试
5.2.5 VIEW模块测试
第6章 结论
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果
本文编号:3168740
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3168740.html