基于Hadoop的海量教育资源小文件的存储研究与实现
发布时间:2020-05-12 16:21
【摘要】:教育资源是指网络学习中存在的各种形式的学习资源,有文本、视频、音频等形式,其中文本学习资源占80%以上,它们的数量很大而且文件大小一般为KB级别,很少达到MB级别,故称之为教育资源小文件。在互联网时代下,网络学习中教育资源小文件的规模越来越庞大,处理时工作量很大,传统的分布式文件系统无法满足海量教育资源小文件的存储需求。Hadoop开源分布式处理平台,提供一种可靠、可伸缩、高效的方式处理大数据。Hadoop的分布式文件系统HDFS,具有很强大的数据存储能力,在大数据处理方面有很优异的表现。但是HDFS是为处理大文件而设计的,它在处理海量小文件时存在一些不足,如:存储海量小文件时产生的元数据会迅速耗费NameNode的内存,可能引起其内存瓶颈;在进行小文件的频繁访问时,需要在多个DataNode间不断跳转,这会导致文件的读取效率降低;相比系统处理相同数量的大文件的速度,对小文件的处理速度过慢。为了解决海量教育资源小文件在Hadoop平台上的存储问题,本文提出了一种基于Hadoop的海量教育资源小文件的存储优化方案。优化方案包括以下四个部分:1)小文件的分类关联:教育资源文件在上传到HDFS集群之前,通过判断文件若为小文件,则利用分类算法对它进行分类,然后利用层次聚类算法对分类后的小文件进行关联,生成关联小文件。2)小文件的合并:将分类后的关联小文件合并成大文件,以大文件的形式上传到HDFS集群中。合并操作可以缓解大量元数据对NameNode内存的消耗。3)建立索引文件:为大文件创建索引文件,小文件检索时,利用索引文件可快速检索到小文件,提高小文件的检索速度。4)元数据缓存及关联小文件预取:首次读取文件后,将文件元数据及关联小文件预取缓存到客户端。预取缓存机制可以提高小文件的读取效率。最后,通过实验对小文件的存储优化方案进行测试,设计了三组实验分别对比文件的写入时间、小文件的访问时间以及系统的内存占用率情况。实验结果表明,本文提出的海量教育资源中小文件的存储优化方案可以缓解大量小文件对NameNode内存的迅速消耗问题,可提高小文件的随机访问效率,可减少系统资源的花销,还可以减少小文件的读写时间。
【图文】:
HDFS系统架构图
通过数据流向数据块中写入文件,并创建一个文件记后,数据节点会通知名称节点,,最后名称节点会记录相应的元数端会抛出异常,文件写入出错,重新进行文件的写入操作。HDFS图 2-2 所示。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP333
本文编号:2660502
【图文】:
HDFS系统架构图
通过数据流向数据块中写入文件,并创建一个文件记后,数据节点会通知名称节点,,最后名称节点会记录相应的元数端会抛出异常,文件写入出错,重新进行文件的写入操作。HDFS图 2-2 所示。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP333
【参考文献】
相关期刊论文 前1条
1 李新苗;;中国移动两年内将实现“公共云”服务能力 大云计划BC1.0正式推出[J];通信世界;2010年19期
本文编号:2660502
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2660502.html