海量地理栅格数据存储关键技术研究
发布时间:2018-03-15 06:07
本文选题:分布式文件系统 切入点:地理栅格 出处:《国防科学技术大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着卫星、航空测绘和遥感技术的发展,地理影像信息获取越来越快捷,全球影像数据集规模迅速膨胀,由此带来的好处是地理信息系统有能力展现全球每个角落的精细地图。但如此海量的地理信息数据也给信息系统研发和建设带来了很大难题,其中海量地理栅格数据的存储和访问就是难点问题之一。以18层金字塔的全球栅格文件为例,文件数量将达到二百亿以上规模,数据量达到PB以上。而且由于地理信息系统需要提供数据在线即时服务,使得对后台存储系统的文件访问延迟、并发访问能力以及容错性要求都很高。目前开源的海量文件系统和存储系统不具备这样的海量存储和低延时访问能力。基于上述需求,课题组实现了SMDFS分布式文件系统,基于HDFS对文件系统结构进行改造,以目录为单位将小文件合并成大文件进行存储,并设计了两级元数据结构,第一级与HDFS一样以大文件为单位进行管理,第二级管理大文件内的小文件,第二级元数据分散在数据服务器集群中,很好地解决海量小文件存储与低延时访问问题。SMDFS主要适用于一个目录下会有大量小文件的场景。然而地理栅格数据的一种主要组织方式是金字塔方式。一个金字塔代表一个地理区域的栅格文件集合,通常表现形式是多层四叉树目录。除了叶结点外,每个目录有四个子目录,每个目录下存储几张影像图片。因此这样的组织方式显然不适合基于目录进行合并存储,因为不会大幅减少元数据服务器的元数据量,使得存储能力和访问效率很低。针对海量栅格文件存储和访问引发的问题,论文提出了聚合空间技术。聚合空间是一个文件聚合单位,一个聚合空间里的文件合并为一个聚合文件进行存储,文件系统元数据服务器维护聚合文件的索引信息,数据服务器维护聚合文件内小文件的索引信息。聚合空间在分布式文件系统中组织成树状结构,一个聚合空间内包含多个子聚合空间。海量文件存储时,可根据文件目录结构,选择或设计一个优秀映射算法,将之映射为一个文件聚合空间结构,使得每个聚合空间内包含大量小文件,出色地提高存储能力和访问效率。针对金字塔栅格文件,论文提出并设计了对折聚合算法,将金字塔文件目录结构映射为文件聚合空间结构。对折聚合算法和技术通过将n层金字塔文件目录结构映射为?n2/?层金字塔文件聚合空间结构,满足在金字塔文件目录结构下,具有相同祖先目录的同层文件映射到同一聚合空间,实现了地理相邻的栅格文件存储也相邻的高效聚合。通过对折聚合算法,一个聚合空间下的文件与原来一个目录下文件数量对比平均增加了?n/2?4倍,可以有效提高了金字塔文件的存储和访问效率。论文基于SMDFS分布式文件系统,研究设计了适合金字塔对象存储和管理的金字塔文件系统类,将全球栅格数据的多金字塔存储模型,转换为多金字塔对象存储模型,以金字塔对象为单位实现全球栅格数据的存储和管理。并对支持海量栅格文件存储的基于聚合空间的海量文件系统进行设计和实现。论文最后对成果进行了测试,表明基于聚合空间的海量小文件系统可以高效地实现海量四叉树栅格数据地快速存储和实时访问,并能兼容海量小文件和大文件的存储,满足面向全球的地理信息系统的存储和在线服务需求。
[Abstract]:......
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333
【参考文献】
相关期刊论文 前1条
1 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期
,本文编号:1614743
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1614743.html