面向车驾管业务的海量小文件存储研究与优化
本文选题:海量小文件 切入点:HDFS 出处:《广西师范大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着计算机互联网的发展与信息时代的到来,在天文、地理、气象、电子商务等诸多领域,其使用的应用系统中已积累了数量惊人的数据,同时这些数据被分散成多个容量很小的文件进行存储。并且诸如银行、邮政、车管所等这些便利民众的服务行业也开始结合互联网形成“互联网+”的发展模式,并为了满足其自身的某种需求而逐渐产生出亿级以上的海量小文件,且这些文件数量仍旧处在爆炸性增长中,这给系统存储效率、检索及元数据管理带来巨大挑战。在大数据时代背景下,根据《互联网交通安全综合服务平台建设指导意见》(公交管(2013)433号)要求,为了推进“互联网+车管所”的大数据平台建设,本文针对南宁市车管所车驾管业务系统的需要,构建一个基于Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)面向车驾管业务的海量小文件存储系统VDSMSS(Vehicle-Driving ServiceMassStorageSystem),为“互联网+车管所”的大数据平台打下基础,同时也为当今针对服务行业的基于HDFS的海量小文件存储系统设计,提供一个有效解决思路和优化方向,具有现实意义和价值。本文的主要研究内容如下:(1)简述HDFS的核心架构及其内部的关键数据结构。介绍当前业界面对海量小文件时使用的存储优化方案,分析其中几个代表性方案的优缺点。介绍几种代表性的缓存替换算法,重点介绍文件系统ZFS的自调整缓存替换算法(ZFS Adjustable Replacement Cache,ZFS-ARC)。(2)分析HDFS存储海量小文件时存在的问题,确定优化方向。总结阐述车驾管业务系统中小文件所具有的特点,针对该特点,设计将多个小文件以用户为单位,按时间业务分组,合并成一个大文件,从而减少小文件的数量,达到降低大量小文件元数据占用NameNode内存的目的。同时设计一个高效的单一文件查找方法和批量查找索引,能在兼顾检索文件速度的情况下,以一定查询条件进行批量文件查找。(3)针对HDFS没有在文件读写方面提供预取和缓存功能的问题,本文提出了一个基于文件关联度预读机制的自调整缓存替换算法。首先采用传统的关联规则挖掘算法,对存储有小文件访问记录的Hadoop日志文件进行关联挖掘,将挖掘出的数据进行合乎理论的数理分析,计算出小文件之间的潜在关联度。其次以此关联度设计出一个合适的文件预读机制,当某个小文件被读取时,则把该小文件的关联文件预读到缓存中。然后将兼顾了“时间”和“频率”的缓存替换算法ZFS-ARC与本文设计的预读机制结合,改进出一个基于文件关联度预读机制的自调整缓存替换算法PRE-ZFSARC,用以提高VDSMSS的小文件读取性能。最后通过实验对比分析,证明本文方案的有效性。最终完成海量小文件存储系统的性能优化,使其高度适用于车管所车驾管业务系统。
[Abstract]:With the development of the computer Internet and the arrival of the information age, in many fields, such as astronomy, geography, meteorology, electronic commerce and so on, its application system has accumulated a surprising amount of data. At the same time, this data is scattered into a number of very small files for storage. And services such as banks, postal services, car management offices and so on are beginning to combine the Internet to form a "Internet" development model. And to meet its own needs and gradually produce a large number of small files of more than 100 million levels, and the number of these files are still explosive growth, which gives the system storage efficiency, Retrieval and metadata management pose great challenges. In the context of big data's time, according to the guidance on the Construction of Internet Traffic Safety Integrated Service platform, In order to promote the construction of big data platform of Internet vehicle Management Institute, this paper aims at the needs of vehicle driving and management business system of Nanning vehicle Management Institute. A large amount of small file storage system, VDSMSS(Vehicle-Driving Service Mass Storage system, which is based on Hadoop distributed file system, Hadoop Distributed File File system, is constructed, which lays the foundation for big data platform of Internet vehicle Management Institute. At the same time, it also provides an effective solution and optimization direction for the design of mass small file storage system based on HDFS for the service industry. The main research contents of this paper are as follows: 1) briefly describe the core architecture of HDFS and its internal key data structure, and introduce the storage optimization schemes used by the industry in the face of a large number of small files. This paper analyzes the merits and demerits of several representative schemes, introduces several representative cache replacement algorithms, and focuses on the self-adjusting cache replacement algorithm of file system ZFS (ZFS Adjustable Replacement CacheCache ZFS-ARCU. 2) analyzes the problems existing in HDFS storage of large amount of small files. To determine the direction of optimization, summarize and expound the characteristics of small files in vehicle driving and management business system. In view of this characteristic, design and merge several small files into one large file by time business grouping, taking user as unit, So as to reduce the number of small files and reduce the amount of small file metadata to occupy NameNode memory. At the same time, we design an efficient single file lookup method and batch search index, which can take into account the speed of file retrieval. To solve the problem that HDFS does not provide prefetching and caching functions in file reading and writing, In this paper, a self-adjusting cache replacement algorithm based on file association prereading mechanism is proposed. Firstly, the traditional association rule mining algorithm is used to mine the Hadoop log files with small file access records. The extracted data is analyzed in accordance with the theory, and the potential correlation degree between small files is calculated. Secondly, an appropriate file pre-reading mechanism is designed with this correlation degree, when a small file is read, Then the associated file of the small file is preread into the cache. Then the cache replacement algorithm ZFS-ARC, which takes into account both "time" and "frequency", is combined with the pre-read mechanism designed in this paper. A self-adjusting cache replacement algorithm PRE-ZFSARCbased on file association degree prereading mechanism is improved to improve the performance of small file reading in VDSMSS. It is proved that this scheme is effective. Finally, the performance optimization of mass small file storage system is completed, which makes it highly applicable to the vehicle driving business system of the vehicle pipe station.
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP333
【相似文献】
相关期刊论文 前10条
1 姚义曼;如何保持文件存储的连续性[J];微计算机信息;2000年02期
2 王春靖;FAT32的优点[J];电脑爱好者;1998年03期
3 何文才;郑钊;刘培鹤;杜敏;;一种基于目录数据分离存储的文件存储方法的研究与实现[J];网络安全技术与应用;2014年01期
4 飞雪散花;;手机文件存储看我的[J];电脑迷;2012年05期
5 孙有军;张大兴;;海量图片文件存储去重技术研究[J];计算机应用与软件;2014年04期
6 ;金刚指——计算机文件存储的保护神[J];信息安全与通信保密;2001年12期
7 赵跃龙;谢晓玲;蔡咏才;王国华;刘霖;;一种性能优化的小文件存储访问策略的研究[J];计算机研究与发展;2012年07期
8 周国安;李强;陈新;胡旭;;云环境下海量小文件存储技术研究综述[J];信息网络安全;2014年06期
9 张美芳;电子文件存储方式的研究[J];数字与缩微影像;2005年02期
10 陶慧;于守谦;刘夏;;适于测控系统的文件存储结构研究[J];计算机应用与软件;2010年11期
相关会议论文 前6条
1 任勇;朱立谷;张雷;彭建峰;;新型虚拟文件存储系统的设计[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 李浩;;基于制播分离的文件存储和传输方式的探讨[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(上篇)[C];2010年
3 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 陈海波;侯建卫;;针对海量详单快速存储检索的实现方法[A];2011全国无线及移动通信学术大会论文集[C];2011年
5 袁旦;张智君;;预览时间对颜色判断任务下客体文件存储的影响[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 黄步根;黄政;刘建军;;SANYO数码相机中被删除视频的恢复[A];第26次全国计算机安全学术交流会论文集[C];2011年
相关重要报纸文章 前9条
1 本报记者 郭平;Isilon扩充文件存储产品线[N];计算机世界;2009年
2 本报记者 郭平;容量与性能 一样都不能少[N];计算机世界;2010年
3 张峰;统一存储 业务连续[N];网络世界;2006年
4 清水 编译;基于文件存储大行其道[N];计算机世界;2011年
5 本报记者 郭涛;HCP Anywhere:为HDS内容云锦上添花[N];中国计算机报;2013年
6 于翔;让IT如业务般运营的应用路径[N];网络世界;2009年
7 刘一冰;IBM SoNAS专攻高端存储客户[N];电脑商报;2010年
8 清水 编译;云存储:机遇下暗藏挑战[N];计算机世界;2010年
9 沈建苗;互联网存储 你信得过吗[N];计算机世界;2007年
相关硕士学位论文 前10条
1 廖家赵;面向城轨线网的海量小文件存储方法的研究与实现[D];华南理工大学;2015年
2 李长平;基于FastDFS架构的小文件存储系统的设计与实现[D];哈尔滨工业大学;2015年
3 叶道平;基于HADOOP的海量录音文件存储系统的设计与实现[D];电子科技大学;2014年
4 张振猛;基于Hadoop的海量文件存储系统的分析与设计[D];北京工业大学;2015年
5 武奇;云存储中数据的分发与迁移机制的研究[D];长春工业大学;2016年
6 周兴;基于MongoDB的海量大中小文件存储系统的研究与应用[D];中国地质大学(北京);2016年
7 张程;基于HDFS的文件存储与读取的优化策略研究与应用[D];北京工业大学;2016年
8 宫海林;支持事务的文件存储技术研究与系统实现[D];国防科学技术大学;2006年
9 曹挹芬;分布式文件存储与检索平台的设计与实现[D];湖南大学;2009年
10 黄斌;并行文件存储系统关键技术的研究[D];华南理工大学;2012年
,本文编号:1576576
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1576576.html