基于HDFS的多租户小文件存储系统的研究与设计
本文选题:HDFS + 多租户 ; 参考:《浙江大学》2016年硕士论文
【摘要】:计算机技术尤其是互联网技术的高速发展,使得人们产生与分享信息变得愈发便利与多样。如当前普遍使用的微信,人们随时随地可以产生大量短小的图片、音频及视频内容。这对存储和处理这些巨量的信息提出了很大的挑战,尤其是小文件存储与处理系统,它是目前互联网应用服务必须具备的底层服务。目前Hadoop系统已经成为目前用于大数据存储和处理的公认标准。但Hadoop包含的底层分布式存储系统HDFS(Hadoop Distributed File System)的设计着重于高延时、高吞吐大文件场景的数据处理,其元数据访问模式对小文件场景十分不利。HDFS运行时必须将所有的文件元数据信息载入到服务器内存中,因而一个集群的文件存储数量受限于元数据服务器内存的大小。大量小文件会和大文件一样产生对应的元数据条目,但其实际占用的存储空间却比后者小很多,这使得元数据和集群空间利用率被很大程度地降低。在文件访问上,通常需要多达四次的网络请求客户端才能正真获取到需要的文件内容。对小文件而言,网络请求耗时比大文件占比要高且直接影响到访问效率。另外当前HDFS还不具备多租户机制,只能对用户级别的容量和文件数做配额约束,而不能动态、细粒度地限定用户的资源使用。针对上述问题,本文通过修改HDFS的元数据存储模式,首次将多级分离缓存引入到HDFS元数据存储管理中。该设计从根本上来解决了大量小文件对元数据内存的消耗问题,且可以通过不同的缓存策略降低由此引入的缓存失效延迟问题。同时本文还提出了一种新的文件直接访问模式,使得客户端可以不通过元数据节点而直接访问数据节点并获取数据,提升访问效率。最后本文首次将支持细粒度租户资源隔离与控制的多租户机制加入到HDFS中,使得各个租户在元数据使用、I/O访问上不出现恶性竞争,由此提升HDFS在多租户、大量负载应用场景下的稳定性。
[Abstract]:With the rapid development of computer technology, especially Internet technology, it becomes more and more convenient and diverse for people to produce and share information. As the current popular WeChat, people can produce a large number of short pictures, audio and video content anytime and anywhere. This poses a great challenge to the storage and processing of these huge amounts of information, especially the small file storage and processing system, which is the underlying service that Internet application services must have at present. At present, Hadoop system has become the accepted standard for big data storage and processing. However, the design of Hadoop distributed File system (HDFS), which includes the underlying distributed storage system, focuses on the data processing of high latency, high throughput and large file scenarios. The metadata access mode is very disadvantageous to the small file scenario. When HDFS runs, all file metadata information must be loaded into server memory, so the number of file storage in a cluster is limited by the size of metadata server memory. A large number of small files will produce corresponding metadata entries as large files, but their actual storage space is much smaller than the latter, which greatly reduces the utilization of metadata and cluster space. In file access, it usually takes up to four network requests to get the required file content. For small files, network requests take more time than large files and directly affect access efficiency. In addition, HDFS does not have multi-tenant mechanism at present, it can only restrict the capacity and the number of files at the user level, but it can not dynamically and finely define the resource usage of the user. In order to solve the above problems, the multi-level separation cache is introduced into the management of HDFS metadata storage for the first time by modifying the metadata storage mode of HDFS. This design fundamentally solves the problem that a large number of small files consume metadata memory, and can reduce the cache invalidation delay problem by different cache strategies. At the same time, this paper also proposes a new file direct access mode, which enables clients to directly access data nodes and obtain data without metadata nodes, so as to improve access efficiency. Finally, the multi-tenant mechanism which supports fine-grained tenant resource isolation and control is added to HDFS for the first time, so that there is no vicious competition in accessing metadata using I / O, so that HDFS can be promoted in multi-tenant. Stability in heavy load application scenarios.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 王春靖;FAT32的优点[J];电脑爱好者;1998年03期
2 何文才;郑钊;刘培鹤;杜敏;;一种基于目录数据分离存储的文件存储方法的研究与实现[J];网络安全技术与应用;2014年01期
3 飞雪散花;;手机文件存储看我的[J];电脑迷;2012年05期
4 孙有军;张大兴;;海量图片文件存储去重技术研究[J];计算机应用与软件;2014年04期
5 ;金刚指——计算机文件存储的保护神[J];信息安全与通信保密;2001年12期
6 赵跃龙;谢晓玲;蔡咏才;王国华;刘霖;;一种性能优化的小文件存储访问策略的研究[J];计算机研究与发展;2012年07期
7 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期
8 张美芳;电子文件存储方式的研究[J];数字与缩微影像;2005年02期
9 陶慧;于守谦;刘夏;;适于测控系统的文件存储结构研究[J];计算机应用与软件;2010年11期
10 方勇;史跃辉;;浅谈减少地形图电子文件存储冗余的几种方法[J];江西测绘;2006年02期
相关会议论文 前6条
1 任勇;朱立谷;张雷;彭建峰;;新型虚拟文件存储系统的设计[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 李浩;;基于制播分离的文件存储和传输方式的探讨[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(上篇)[C];2010年
3 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011全国无线及移动通信学术大会论文集[C];2011年
5 袁旦;张智君;;预览时间对颜色判断任务下客体文件存储的影响[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 黄步根;黄政;刘建军;;SANYO数码相机中被删除视频的恢复[A];第26次全国计算机安全学术交流会论文集[C];2011年
相关重要报纸文章 前9条
1 本报记者 郭平;Isilon扩充文件存储产品线[N];计算机世界;2009年
2 本报记者 郭平;容量与性能 一样都不能少[N];计算机世界;2010年
3 张峰;统一存储 业务连续[N];网络世界;2006年
4 清水 编译;基于文件存储大行其道[N];计算机世界;2011年
5 本报记者 郭涛;HCP Anywhere:为HDS内容云锦上添花[N];中国计算机报;2013年
6 于翔;让IT如业务般运营的应用路径[N];网络世界;2009年
7 刘一冰;IBM SoNAS专攻高端存储客户[N];电脑商报;2010年
8 清水 编译;云存储:机遇下暗藏挑战[N];计算机世界;2010年
9 沈建苗;互联网存储 你信得过吗[N];计算机世界;2007年
相关硕士学位论文 前10条
1 廖家赵;面向城轨线网的海量小文件存储方法的研究与实现[D];华南理工大学;2015年
2 李长平;基于FastDFS架构的小文件存储系统的设计与实现[D];哈尔滨工业大学;2015年
3 叶道平;基于HADOOP的海量录音文件存储系统的设计与实现[D];电子科技大学;2014年
4 张振猛;基于Hadoop的海量文件存储系统的分析与设计[D];北京工业大学;2015年
5 何高峰;基于HDFS的多租户小文件存储系统的研究与设计[D];浙江大学;2016年
6 宫海林;支持事务的文件存储技术研究与系统实现[D];国防科学技术大学;2006年
7 曹挹芬;分布式文件存储与检索平台的设计与实现[D];湖南大学;2009年
8 黄斌;并行文件存储系统关键技术的研究[D];华南理工大学;2012年
9 蒋浩;分布式文件存储系统副本管理方法研究[D];浙江大学;2013年
10 张聪萍;钱塘分布式文件存储系统性能优化[D];浙江大学;2011年
,本文编号:2062935
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2062935.html