基于内存的HDFS数据存储技术研究
本文关键词:基于内存的HDFS数据存储技术研究,由笔耕文化传播整理发布。
【摘要】:随着互联网时代信息与数据的飞速增长,各行各业的数据规模都可以轻易地达到GB、TB甚至PB级。云计算数据处理系统Hadoop应运而生,其开源社区资源丰富,用户广泛,为各种大数据处理提供可靠的、性能可扩展的、灵活的计算环境。Hadoop数据处理平台上的大数据存储依赖于底层的分布式文件系统。然而该文件系统支持的存储介质单一,许多工作流的中间数据需要进行频繁的磁盘读写,这种读写开销不断增长影响了整个数据处理过程的效率。本文针对云环境下的海量数据存储介质单一导致吞吐率较低和数据访问时延较长问题,研究基于内存的Hadoop分布式文件系统数据存储技术。本文分析了当前分布式文件系统的系统架构和数据存储过程,设计基于内存的分布式文件系统。通过合理分配各个数据节点上可用的内存资源,使得集群中的数据节点可以有效管理一部分内存存储空间,实现分布式文件系统在进行数据读写操作时优先使用内存存储资源,提高数据的读写速率,使得整个系统的数据吞吐率随之提高。并在副本放置过程中,区分各个数据节点上内存存储资源与磁盘存储资源的差异,建立副本放置代价模型,选取存储和网络传输代价较小的数据节点进行副本放置,使得更多的数据写入内存中,加快数据的读写效率。最后本文提出了合理的内存数据置换方法,设定合理的触发和停止数据置换的阈值,设计文件热度计算与更新算法,在数据置换时,将内存中热度较低的文件置换到磁盘中,保证集群中的数据节点上有一定的内存可用空间,可以持续的为用户提供高吞吐率的数据读写服务。本文改进现有的HDFS,设计开发基于内存的Hadoop分布式文件系统,实现了上述功能。并搭建实验平台,通过Hadoop数据读写基准测试与基于磁盘的HDFS进行性能测试对比。实验结果表明,基于内存的HDFS数据存储系统能有效提高数据访问速率和系统的数据吞吐率,具有明显性能优势。
【关键词】:HDFS 内存存储 副本放置 文件置换
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 引言9-15
- 1.1 研究背景9-10
- 1.2 研究现状10-13
- 1.2.1 云环境下的数据处理系统研究现状10-11
- 1.2.2 云环境下的基于内存的数据处理系统研究现状11
- 1.2.3 云环境下Hadoop分布式文件系统研究现状11-12
- 1.2.4 研究现状总结12-13
- 1.3 论文研究目标与意义13
- 1.4 论文研究内容13-14
- 1.5 论文组织结构14-15
- 第2章 Hadoop分布式文件系统介绍15-24
- 2.1 HDFS的基本框架15-17
- 2.1.1 主从分布式结构15-16
- 2.1.2 HDFS文件存储组织16-17
- 2.2 数据读写过程17-20
- 2.2.1 数据读取过程17-18
- 2.2.2 数据写入过程18-20
- 2.3 HDFS多副本存储放置策略20-23
- 2.3.1 数据块多副本存储策略20-21
- 2.3.2 数据块多副本放置策略21-22
- 2.3.3 副本重新创建过程22-23
- 2.4 小结23-24
- 第3章 内存存储资源分配与管理24-29
- 3.1 内存存储资源分配24-26
- 3.1.1 合理分配各节点的内存资源24-25
- 3.1.2 配置可用内存空间25-26
- 3.2 内存存储资源管理26-28
- 3.2.1 数据节点存储管理结构26-27
- 3.2.2 数据节点存储路径选择策略27-28
- 3.3 小结28-29
- 第4章 内存存储的副本放置优化策略29-35
- 4.1 副本放置代价模型29-30
- 4.2 按机架分层的副本放置节点选择策略30-34
- 4.2.1 按机架分层分配副本放置节点数量30-31
- 4.2.2 按机架分层选择副本放置节点过程31-34
- 4.3 小结34-35
- 第5章 内存存储数据置换方法35-42
- 5.1 数据置换阈值设置35-36
- 5.1.1 触发数据置换的阈值35-36
- 5.1.2 停止数据置换的阈值36
- 5.2 文件热度的计算与更新36-39
- 5.2.1 文件热度计算方法36-37
- 5.2.2 文件热度更新方法37-39
- 5.3 基于文件热度的数据置换过程39-40
- 5.4 小结40-42
- 第6章 系统性能分析42-51
- 6.1 基于内存的HDFS系统框架42-43
- 6.2 实验环境43
- 6.2.1 硬件环境43
- 6.2.2 软件环境43
- 6.3 性能对比43-50
- 6.3.1 单节点上的性能对比43-45
- 6.3.2 多节点上的性能对比45-50
- 6.4 小结50-51
- 第7章 总结与展望51-53
- 7.1 论文总结51
- 7.2 展望51-53
- 参考文献53-55
- 致谢55-56
- 附录56-59
- 作者简历59-60
- 攻读硕士学位期间相关研究工作60
【相似文献】
中国期刊全文数据库 前10条
1 冷星雨;小议多内存混插[J];电脑爱好者;2001年17期
2 陵仲;多内存混插注意事项和解决方法[J];广东电脑与电讯;2002年01期
3 ;如何混用新旧内存[J];计算机与网络;2002年04期
4 张菲;;不同品牌内存混插注意事项[J];计算机与网络;2007年12期
5 贾保民;节约内存资源六法[J];计算机时代;2001年01期
6 张岩;;下一代内存技术面面观[J];个人电脑;2008年02期
7 友文;;用闲置内存加速本本[J];电脑知识与技术(经验技巧);2010年10期
8 Jaro;内存清洁师招聘记[J];电脑爱好者;2002年05期
9 ;最新15种QQ技术以及小秘密[J];计算机与网络;2012年02期
10 Bob Kane ,黄强;为联网创造更多的空间[J];电子与电脑;1996年08期
中国重要会议论文全文数据库 前2条
1 王玮;杨正球;;局域网内存共享管理方案[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
2 赖生建;王秉中;;共享内存系统中不交换数据的并行FDTD计算[A];2009年全国天线年会论文集(上)[C];2009年
中国重要报纸全文数据库 前10条
1 ;Windows中提高内存使用效率的几种技巧[N];中国国门时报;2007年
2 于海军;内存也需要保洁[N];中国电脑教育报;2003年
3 钱正刚;提高内存使用效能的几种方法[N];中国电脑教育报;2004年
4 ;QQ为何如此耗费资源[N];电脑报;2005年
5 安徽 高伟;妙法节省QQ占用的内存资源[N];电脑报;2003年
6 本报记者 丁伟;IBM eX5架构再造x86服务器[N];计算机世界;2010年
7 阳光三月;三招教你释放手机内存[N];中国计算机报;2004年
8 江西 练兵;ReadyBoost 微软的新“画饼”?[N];中国电脑教育报;2007年
9 阳光三月;巧妙“解放”手机内存[N];电脑报;2005年
10 阳光三月;巧妙解放手机内存[N];中国电脑教育报;2005年
中国硕士学位论文全文数据库 前7条
1 郭刚;内存云分级混合存储架构数据迁移策略[D];新疆大学;2016年
2 钱雪娇;基于内存的HDFS数据存储技术研究[D];东南大学;2015年
3 林振立;云计算环境下的内存资源共享技术研究[D];国防科学技术大学;2010年
4 王柳峰;基于虚拟化的云计算平台内存资源协同共享技术研究[D];国防科学技术大学;2011年
5 刘兰峥;虚拟化云平台下内存资源按需分配与协同调度方法的研究[D];国防科学技术大学;2013年
6 张辰;Map/Reduce型海量数据处理平台中内存资源动态分配关键技术研究[D];北京工业大学;2015年
7 张鹏飞;基于虚拟计算环境的内存资源弹性分配研究[D];国防科学技术大学;2013年
本文关键词:基于内存的HDFS数据存储技术研究,,由笔耕文化传播整理发布。
本文编号:449092
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/449092.html