不依赖访问热度信息的分布式文件放置算法研究
发布时间:2023-02-21 18:29
在大数据的背景下,人们对海量数据的存储和管理越来越依赖于分布式文件系统,而文件的放置算法是影响分布式文件系统整体性能的重要因素之一。近年来,研究者针对文件的访问热度对分布式文件系统的文件放置问题进行了研究,取得了一定的效果。但是文件访问热度信息是不确定的动态值,而且在文件存储时其访问热度是未知的。本文针对这一不足,对分布式文件系统的文件放置问题展开了研究。首先本文对分布式文件系统进行了研究。通过对HDFS(Hadoop Distributed File System)文件放置算法相关源代码的分析和研究,提取了 HDFS分布式文件系统默认文件放置算法模型;通过Hadoop集群进行了数据存储结果的验证和分析,指出了 HDFS分布式文件系统默认文件放置算法的不足之处。然后本文针对文件访问热度信息的不确定性问题,提出了一种不依赖文件访问热度信息的分布式文件放置算法,称为 WDFPA(Distributed File Placement Algorithm Without Depending on Popularity Information)算法。通过分析文件的访问寿命,发现文件已创建时间与文...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 选题背景及研究意义
1.2 国内外研究现状
1.2.1 分布式文件系统研究
1.2.2 分布式文件放置策略研究
1.3 论文研究内容
1.4 论文组织结构
2 分布式文件系统技术
2.1 分布式文件系统概述
2.1.1 分布式文件系统定义与特点
2.1.2 分布式文件系统关键技术
2.1.3 常见分布式文件系统举例
2.2 HDFS文件系统
2.2.1 HDFS文件系统架构
2.2.2 HDFS文件系统基本特征
2.2.3 HDFS文件系统写数据流程
2.3 本章小结
3 不依赖访问热度信息的分布式文件放置算法
3.1 HDFS文件放置模型提取
3.1.1 HDFS文件放置相关源码分析
3.1.2 HDFS文件放置算法描述
3.1.3 HDFS文件放置算法的不足
3.2 HDFS文件放置结果分析
3.2.1 Hadoop集群环境
3.2.2 Hadoop集群文件放置结果分析
3.3 不依赖文件访问热度的放置算法(WDFPA)实现
3.3.1 时间区间的划分
3.3.2 各时间区间数据量的统计及其动态更新
3.3.3 定义文件放置负载因子
3.3.4 基于负载因子文件放置策略
3.4 实验设计与结果分析
3.4.1 实验平台开发环境
3.4.2 实验设计
3.4.3 实验数据
3.4.4 实验结果及分析
3.5 本章小结
4 基于WDFPA算法的副本管理策略
4.1 常见的副本管理策略
4.1.1 HDFS默认的副本管理策略
4.1.2 基于文件热度的副本管理策略
4.2 基于WDFPA算法的副本管理策略
4.2.1 WDFPA算法的应用
4.2.2 基于WDFPA算法的副本管理策略实现
4.3 实验及结果分析
4.3.1 各数据节点存储负载情况
4.3.2 各数据节点访问负载情况
4.3.3 文件系统的存储负载变化情况
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录
本文编号:3747791
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 选题背景及研究意义
1.2 国内外研究现状
1.2.1 分布式文件系统研究
1.2.2 分布式文件放置策略研究
1.3 论文研究内容
1.4 论文组织结构
2 分布式文件系统技术
2.1 分布式文件系统概述
2.1.1 分布式文件系统定义与特点
2.1.2 分布式文件系统关键技术
2.1.3 常见分布式文件系统举例
2.2 HDFS文件系统
2.2.1 HDFS文件系统架构
2.2.2 HDFS文件系统基本特征
2.2.3 HDFS文件系统写数据流程
2.3 本章小结
3 不依赖访问热度信息的分布式文件放置算法
3.1 HDFS文件放置模型提取
3.1.1 HDFS文件放置相关源码分析
3.1.2 HDFS文件放置算法描述
3.1.3 HDFS文件放置算法的不足
3.2 HDFS文件放置结果分析
3.2.1 Hadoop集群环境
3.2.2 Hadoop集群文件放置结果分析
3.3 不依赖文件访问热度的放置算法(WDFPA)实现
3.3.1 时间区间的划分
3.3.2 各时间区间数据量的统计及其动态更新
3.3.3 定义文件放置负载因子
3.3.4 基于负载因子文件放置策略
3.4 实验设计与结果分析
3.4.1 实验平台开发环境
3.4.2 实验设计
3.4.3 实验数据
3.4.4 实验结果及分析
3.5 本章小结
4 基于WDFPA算法的副本管理策略
4.1 常见的副本管理策略
4.1.1 HDFS默认的副本管理策略
4.1.2 基于文件热度的副本管理策略
4.2 基于WDFPA算法的副本管理策略
4.2.1 WDFPA算法的应用
4.2.2 基于WDFPA算法的副本管理策略实现
4.3 实验及结果分析
4.3.1 各数据节点存储负载情况
4.3.2 各数据节点访问负载情况
4.3.3 文件系统的存储负载变化情况
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
附录
本文编号:3747791
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3747791.html