基于HDFS的移动超声探测小文件高效存储研究
发布时间:2017-09-13 01:43
本文关键词:基于HDFS的移动超声探测小文件高效存储研究
更多相关文章: 移动超声探测小文件 HDFS 小文件存储模块 预取缓存机制 聚类
【摘要】:移动超声探测在高铁钢轨探测、水下测绘、电力监测等应用中,产生了海量数据,存在着大量的小文件。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)具有高性能、高可靠、高可扩展特点,采用HDFS,可方便地构建移动超声探测云存储系统。HDFS采用主从架构,文件的元数据信息存储在元数据节点Name Node内存中,移动超声探测中产生的大量小文件,消耗了Name Node节点大量内存,限制了HDFS分布式集群存储容量。针对此问题,本文设计独立于HDFS的移动超声探测小文件存储模块,利用移动超声探测小文件的时空信息,将地理位置相近的小文件合并存储到一个大文件中,并将每个小文件索引信息存储于大文件头部中。结合HBase(Hadoop Database),存储小文件到大文件映射信息。采用预取缓存文件映射、索引信息及部分文件数据的机制,加快对小文件的访问效率。在小文件合并策略实现上,根据小文件经纬度属性对小文件聚类分析,地理位置相近的文件聚在同一类中。对于地理位置上呈现块状分布的探测文件,采用网格和层次聚类算法结合进行聚类分析;对于移动超声钢轨探测应用中文件呈现轨状分布特点,借鉴K近邻算法思想,设计针对钢轨探测文件的聚类方案。通过实验测试,表明了小文件存储模块大大减少了小文件元数据对Name Node节点内存的消耗,采用预取缓存机制,加快了文件访问效率。
【关键词】:移动超声探测小文件 HDFS 小文件存储模块 预取缓存机制 聚类
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333;TB559
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-21
- 1.1 课题背景与意义11-15
- 1.1.1 移动超声探测11-13
- 1.1.2 移动超声探测小文件产生13-14
- 1.1.3 小文件高效存储需求14-15
- 1.2 研究现状15-19
- 1.2.1 面向小文件存储的分布式文件系统15-17
- 1.2.2 HDFS小文件存储研究现状17-19
- 1.3 研究内容和创新点19-20
- 1.4 本文结构20-21
- 第2章HDFS分布式文件系统21-32
- 2.1 Hadoop概述21-22
- 2.2 HDFS体系结构22-25
- 2.2.1 NameNode元数据节点23-24
- 2.2.2 DataNode存储节点24-25
- 2.2.3 Client客户端25
- 2.3 HDFS读写文件流程25-28
- 2.3.1 文件写入25-27
- 2.3.2 文件读取27-28
- 2.3.3 一致模型28
- 2.4 HBase分布式数据库28-32
- 2.4.1 HBase架构28-29
- 2.4.2 HBase组成29-32
- 第3章 基于HDFS小文件存储系统设计32-49
- 3.1 系统架构32-34
- 3.1.1 文件存储流程32-33
- 3.1.2 小文件存储模块33-34
- 3.2 小文件合并34-39
- 3.2.1 小文件合并队列35
- 3.2.2 合并策略35-36
- 3.2.3 小文件合并执行36-39
- 3.3 文件映射39-40
- 3.4 预取机制40-46
- 3.4.1 预取缓存需求40-41
- 3.4.2 预取缓存结构41-44
- 3.4.3 预取缓存流程44-45
- 3.4.4 缓存刷新45-46
- 3.5 小文件读写流程46-49
- 3.5.1 小文件写流程46
- 3.5.2 小文件读流程46-49
- 第4章 基于聚类的文件相关分析49-65
- 4.1 聚类概述49-52
- 4.1.1 聚类定义49
- 4.1.2 聚类分类49-51
- 4.1.3 凝聚型层次聚类算法51-52
- 4.1.4 K近邻算法52
- 4.2 基于网格结合层次聚类的文件相关分析52-62
- 4.2.1 网格聚类55-56
- 4.2.2 层次聚类56-60
- 4.2.3 类再分裂60-61
- 4.2.4 小文件排序61-62
- 4.3 钢轨探测文件相关性分析62-65
- 第5章 实验与结果分析65-73
- 5.1 实验环境65-67
- 5.2 实验结果与分析67-73
- 5.2.1 实验数据集67-69
- 5.2.2 内存消耗分析69-71
- 5.2.3 读性能分析71-73
- 总结与展望73-74
- 参考文献74-78
- 攻读硕士学位期间取得的研究成果78-79
- 致谢79-80
- 附件80
【参考文献】
中国期刊全文数据库 前5条
1 李斌,张智,任新建;在役钢轨常见伤损形式综述[J];包钢科技;2004年03期
2 陈志勇,阎春雨,陈志敏,谢津波;变压器超声波局部放电测试在电网的应用[J];河北电力技术;2004年03期
3 周水庚,范晔,周傲英;基于数据取样的DBSCAN算法[J];小型微型计算机系统;2000年12期
4 刘小俊;徐正全;潘少明;;一种结合RDBMS和Hadoop的海量小文件存储方法[J];武汉大学学报(信息科学版);2013年01期
5 王涛;姚世红;徐正全;熊炼;;云存储中面向访问任务的小文件合并与预取策略[J];武汉大学学报(信息科学版);2013年12期
中国硕士学位论文全文数据库 前7条
1 桑应宾;基于K近邻的分类算法研究[D];重庆大学;2009年
2 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
3 张鑫;层次聚类算法的研究与应用[D];江西理工大学;2009年
4 王兰;基于层次聚类的簇集成方法研究[D];河北大学;2010年
5 陈虎;基于HDFS的云存储平台的优化与实现[D];华南理工大学;2012年
6 田炽;基于HDFS的高可扩展性云存储的研究与实现[D];华南理工大学;2012年
7 刘通;基于HDFS的小文件处理与副本策略优化研究[D];中国海洋大学;2014年
,本文编号:840795
本文链接:https://www.wllwen.com/guanlilunwen/gongchengguanli/840795.html