基于HBase的海量图片存储与快速检索技术研究

发布时间:2022-01-19 16:01
  Web2.0时代的到来使得越来越多的图片需要被存储到数据库中,海量的图片信息、非结构化的数据结构、频繁的读写操作都为数据存储提供了难度。如何高效的存储海量图片数据是一个值得关注的话题,大数据的出现为我们解决海量图片存储提供了新的思路。论文针对人脸海量图片的特点和存储需求以及对分布式存储框架的对比,提出了基于HBase的海量图片解决方案,并采用了Master/Slaver分布式存储结构。为了提高图片数据的可靠性,构建HA高可用架构提高系统的可靠性和容错性。在图片存储方面,为了提高海量图片的插入效率,针对不同的图片来源设计不同的表和入库方式。针对其中的大规模人脸抓拍数据以及非结构化的人物信息设计了分布式存储主键,成功的解决HBase在高并发情况数据不平衡的问题,提高了region各区域的负载均衡。由于人脸图片是小文件类型,过多会影响集群的存取效率,因此本文在Hadoop中现有的解决方案上进行优化,提出一种新的解决方案,首先提取人脸图片中的特征值,再利用k-means算法将相似度高的图片小文件合并到大文件中,提高Hadoop中block块的利用率。在文本检索方面,由于HBase缺乏二级索引,... 

【文章来源】:长江大学湖北省

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

基于HBase的海量图片存储与快速检索技术研究


MapReduce体系结构

过程图,过程图,过程


6图2-1MapReduce体系结构Figure2-1MapReducearchitectureMap和Reduce是MapReduce处理海量数据的核心技术,是由主节点进行主动的分解结果。Map阶段主要是将任务分成小块,即把复杂的任务分解成为若干个简单的小块任务进行,这些任务通过主节点直接分配给子节点进行计算,每个任务和任务之间并没有相关的关系。MapReduce框架要先对大量的数据进行拆分排序,然后将结果和后一阶段合并输出。Reduce阶段会对Map阶段送来的任务进行分析,合并,最后处理数据。Map过程以及Reduce的过程都是接受的键值对形式,但是不同过程中的键值对的值以及意义都不一定一样。且从Map段的接收数据到输出数据的过程中都是通过键值对传递,每个过程都要为键值对进行复杂的处理过程,但是最后输出的Key和Value的值不一定和前面的Key,Value的值是一致的。下面详细展示了数据的传递过程:图2-2MapReduce过程图Figure2-2MapReduceprocessdiagram

架构图,文件,主节点,存储系统


7(2)HDFSHDFS[16]来源于Google的论文GoogleFileSystem(GFS),是Hadoop平台具备分布式存储的核心基矗为了能够高效存储大文件集,HDFS继承了其他文件系统中的block块结构,将这些大文件分割成为一个个block块大小的文件存储在Hadoop的节点中,并默认保存着3个副本。在hadoop1.x中block块大小为设置为64M,而新版本中block块大小变成128M,当存储的文件小于块大小的时候并不会占用整个block的空间。HDFS文件存储系统在Hadoop集群中的构建上密不可分,是一个主/从体系的结构,主要起着存储海量数据的作用,即能够存储“超大文件”,能够达到PB级别。HDFS是属于一次写入,可以进行多次读取的方式(流式读取),并不支持已写入数据的更新操作,但是能够允许在文件尾部能够添加新的数据,同时也就意味着这些大量数据集一旦产生过后,就会被分发存储到不同的存储节点上,来应对不同情况的数据处理。HDFS分布式文件存储系统主要是由NameNode,SecondaryNameNode和DataNode这三个部分组成的,主节点靠NameNode,SecondaryNameNode处理数据,DataNode在从节点中接收分配的任务,如下面图是HDFS的架构图。图2-3HDFS架构图Figure2-3HDFSarchitecturediagramDataNode在主节点中主要是用来管理一系列数据,并且记录这些文件以及文件内部中的数据信息,为了节约内存,DataNode并没有存储这些信息。这些信息

【参考文献】:
期刊论文
[1]基于Elasticsearch的HBase大数据二级索引方案[J]. 李传冰.  电脑知识与技术. 2020(04)
[2]聚类中心初始值选择方法综述[J]. 邓旭冉,超木日力格,郭静.  中国电子科学研究院学报. 2019(04)
[3]基于海量数据的HBase写入性能测试与优化[J]. 青欣,文伟军,金星,姜镇.  电脑知识与技术. 2019(06)
[4]ZooKeeper的开发和应用[J]. 陈冬梅,常广炎.  电脑编程技巧与维护. 2017(21)
[5]基于HBase+ ElasticSearch的海量交通数据实时存取方案设计[J]. 董长青,任女尔,张庆余,田玉靖.  大数据. 2017(01)
[6]基于Redis实现HBase二级索引的方法[J]. 崔丹,史金鑫.  软件. 2016(11)
[7]面向HBase的大规模数据加载研究[J]. 贺正红,周娅,文缔尧,吴清霞.  计算机系统应用. 2016(06)
[8]基于HBase的小文件高效存储方法[J]. 熊安萍,熊风波.  重庆邮电大学学报(自然科学版). 2016(01)
[9]SQL-DFS:一种基于HDFS的海量小文件存储系统[J]. 马志强,杨双涛,闫瑞,张泽广.  北京工业大学学报. 2016(01)
[10]Hadoop高可用解决方案研究[J]. 黄强,沈奇威,李炜.  电信技术. 2015(11)

硕士论文
[1]Hadoop平台下基于LSH的图像索引系统的研究与实现[D]. 王永荣.南京邮电大学 2019
[2]Hadoop集群中小文件的存取优化研究[D]. 马振.新疆大学 2019
[3]大容量实时人脸检索系统及其任务调度算法的研究与实现[D]. 王晨曦.北京邮电大学 2019
[4]基于HBase的大数据存储优化设计与性能分析[D]. 温振蕙.中北大学 2019
[5]基于Redis的分布式缓存系统的设计与实现[D]. 章铖.东南大学 2018
[6]基于侧扫声呐图像的水下组合导航算法研究[D]. 李凯.国防科技大学 2017
[7]基于HBase的交通流数据实时存储与查询优化方案的设计与实现[D]. 瞿龙俊.江苏大学 2017
[8]基于协处理器机制的HBase检索速度改进研究[D]. 夏超俊.湖南大学 2015
[9]基于Hadoop的海量图片云存储系统研究与设计[D]. 张卫东.中国海洋大学 2014
[10]基于HBase的海量数据实时查询系统设计与实现[D]. 卓海艺.北京邮电大学 2013



本文编号:3597151

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3597151.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户197a3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com