分布式文件系统元数据存取技术研究
本文选题:小文件存储 + 高并发访问 ; 参考:《重庆交通大学》2016年硕士论文
【摘要】:伴随着互联网应用的飞速发展及人们消费观念的不断转变,互联网应用已经渗透到人们生活的方方面面,这带给互联网企业的不仅仅是用户量和利益的暴增,还带来了文件高并发访问和大量小文件需要存储等问题,分布式文件系统为解决这些问题提供了很好的平台。当前主流的分布式文件系统大多采用集中式元数据存储结构并且主要针对大文件存储进行设计。但是目前很多大型网站都需要存储大量图片文件,而这些图片文件大多小于1MB,主流分布式文件系统在存储小文件时存储和检索效率并不高。并且大型网站的资源文件并发访问量很高,集中式结构的中心服务器已很难支撑高并发的资源请求。主流分布式文件系统在大型网站应用中存在两方面不足:(1)存储小文件时存储与检索效率不高;(2)集中式结构很难支撑高并发访问。而针对小文件存储优化的研究主要集中在两个方向:对元数据存储优化和对数据文件存储优化。由于高并发问题与元数据存储结构相关,因此本文主要从元数据存储优化方向进行研究。针对以上问题本文的主要研究内容如下:(1)提出了将有序哈希表用于存储子目录。由于分布式文件系统中子目录数动辄上万,检索速度较慢,因此文中提出构建复合数据结构有序哈希表来解决该问题。通过实验证明有序哈希表比动态数组检索速度提高99.93%。(2)提出了分布式目录树结构。通过分布式目录树构建的目录系统能够将目录分散存储在不同的服务器中,并且所有数据在逻辑上保持树形结构。考虑到小文件存储占用太多元数据服务器内存,并且存储数量受到元数据服务器的内存限制,而通过将元数据分布保存到不同服务器中,则使得元数据存储容量可以通过添加元数据服务器的方式线性增加,以便能够存储更多小文件。通过实验比较分布式目录树存储空间比HDFS多使用了16.4%,而检索速度比HDFS提升了73.21%。(3)提出了将基于REST风格的HTTP协议作为分布式文件系统的服务提供方式,使用HTTP协议后浏览器能够直接与所有服务器进行交互。并且通过实验证明使用HTTP协议比RPC协议能更好地利用浏览器端缓存,有效减少文件请求次数。文中通过对分布式目录树的元数据创建多个副本并保存到不同服务器中的方式,不仅提高了系统的可靠性也使得浏览器通过访问副本服务器,减少了对原数据服务器的请求次数,降低了服务器的负载。通过实验证明使用HTTP协议后部分命令的请求次数下降了35.5%。
[Abstract]:With the rapid development of Internet application and the constant change of people's consumption concept, Internet application has penetrated into every aspect of people's life, which brings not only the explosion of users and benefits to Internet enterprises. It also brings problems such as high concurrent access to files and large number of small files to be stored. Distributed file system provides a good platform to solve these problems. Current distributed file systems mostly use centralized metadata storage structure and are mainly designed for large file storage. However, many large web sites need to store a large number of image files, and most of these image files are less than 1MB. the mainstream distributed file system is not efficient in storing and retrieving small files. In addition, the resource files of large websites are visited simultaneously, so it is difficult to support the high concurrent resource request by the centralized central server. The main distributed file system has two disadvantages in the application of large websites: (1) the efficiency of storing and retrieving small files is not high; (2) the centralized structure is difficult to support high concurrent access. The research on the optimization of small file storage is mainly focused on two directions: the optimization of metadata storage and the optimization of data file storage. Because the high concurrency problem is related to the metadata storage structure, this paper mainly studies the optimization direction of metadata storage. The main contents of this paper are as follows: (1) an ordered hash table is proposed to store subdirectories. Because the number of subdirectories in distributed file system is more than ten thousand and the retrieval speed is slow, this paper proposes to construct an ordered hash table with compound data structure to solve this problem. The experimental results show that the ordered hash table is 99.93 faster than the dynamic array search speed. (2) A distributed directory tree structure is proposed. The directory system constructed by the distributed directory tree can distribute the directory into different servers, and all the data can be logically maintained in the tree structure. Considering that small file storage takes up too much metadata server memory, and that the amount of storage is limited by the memory of metadata servers, by distributing metadata to different servers, The metadata storage capacity can be increased linearly by adding metadata servers, so that more small files can be stored. Compared with HDFS, the storage space of distributed directory tree is 16.4 more than that of HDFS, and the retrieval speed is 73.21. (3) the REST-based HTTP protocol is proposed as the service provider of distributed file system. Using the HTTP protocol, the browser can interact directly with all servers. Experiments show that HTTP protocol can make better use of browser cache than RPC protocol, and reduce the number of file requests effectively. This paper not only improves the reliability of the system but also enables the browser to access the replica server by creating multiple copies of the metadata of the distributed directory tree and saving them to different servers. Reduce the number of requests to the original data server and reduce the load on the server. It is proved by experiment that the number of requests for some commands after using HTTP protocol has dropped by 35.5.
【学位授予单位】:重庆交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期
2 郎为民;杨德鹏;;云计算中的分布式文件系统[J];电信快报;2012年02期
3 陈文捷;蔡立志;楼志斌;王洁萍;李海波;;应用级分布式文件系统接口标准化探索[J];信息技术与标准化;2012年10期
4 应朝晖,高洪奎,黄若衡;分布式文件系统[J];计算机工程与科学;1995年03期
5 卢军;卢显良;韩宏;许腾;;基于移动Agent的新型分布式文件系统研究[J];计算机科学;2002年10期
6 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期
7 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期
8 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期
9 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期
10 阴四海;王文杰;李秀斌;范军涛;;并行分布式文件系统的改进[J];计算机应用;2007年S2期
相关会议论文 前4条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年
相关重要报纸文章 前10条
1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 ;分布式文件系统一瞥[N];网络世界;2002年
5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年
9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年
10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年
相关博士学位论文 前4条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年
相关硕士学位论文 前10条
1 冷志强;基于分布式文件系统GlusterFS的横向扩展云存储的研究与实现[D];复旦大学;2014年
2 眭椰敏;阿里云分布式文件系统客户端的设计与实现[D];南京大学;2014年
3 周克利;分布式文件系统中的若干关键算法研究[D];南京大学;2013年
4 董乾豪;通用可扩展的分布式文件系统性能测试框架研究与实现[D];南京大学;2016年
5 吴森;分布式文件系统小文件性能优化技术研究[D];华中科技大学;2014年
6 胡梦楠;HDFS云存储系统可用性能的优化研究[D];电子科技大学;2016年
7 衣然;基于HDFS的云存储关键技术研究[D];广西大学;2015年
8 曾磊;一个高可用的分布式文件系统的设计和实现[D];东南大学;2016年
9 谢骏;海量数据存取服务系统设计与实现[D];国防科学技术大学;2014年
10 徐彪;面向分布式文件系统的基准测试框架研究与设计[D];杭州电子科技大学;2016年
,本文编号:2075133
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2075133.html