基于云平台的多媒体管理技术研究
第 1 章 绪论
目前对于解决小文件云存储的研究基本上都是基于文件合并的策略,通过将大量小文件进行合并,从而减少平台的文件数目,减轻分布式文件系统用于存放文件元数据的内存压力;同时小文件合并为大文件后,能够明显提高其硬盘读写速率,节省文件存储消耗的时间。对于小文件云存储的相关研究如下:1. Bo Dong[1]在 2012 年提出针对于结构相关型文件与逻辑相关型小文件的云存储解决方案。作者首先针对分布式文件系统通过实验评估出其大小文件的分界线,解决了关于“多小的文件算是小”的问题定义;然后对文件的类型进行了相应的划分,将文件分为三种类型:结构相关型文件、逻辑相关型文件、独立型文件;最后文章针对结构相关型与逻辑相关型文件提出了不同的文件合并相关策略,并针对不同类型的情况提出了元数据缓存策略、小文件索引缓存策略和相关文件预取策略。
.......
第 2 章 相关技术简介
2.1 云平台技术
MapReduce 是 Google 公司于 2004 年为了处理海量数据的并行操作而提出的流式计算模型,它使得编程人员无需拥有分布式编程经验或编写大量的并行计算程序就可以方便的对分布式资源进行利用。它将业务逻辑处理与复杂的具体实现进行分离,开发人员可以通过调用其提供的接口实现大规模的分布式计算。当提交一个 MapReduce[11]作业时通常需要处理的文件可以被分块成多个可以独立处理的 map 子任务,由 map 任务以并行的方式去处理[12]。每一个 map 任务以键值对的方式处理输入数据,处理完的结果经常以相同的 key 为单位放到同一reduce 上进行汇总,输入的结果也可以通过排序处理。MapReduce 与 HDFS 相似,都是 Master/Slave 架构,一个是 JobTracker[13](在 hdfs 中为 namenode),另一个是 TaskTracker(在 hdfs 中为 DataNode)。一个 hadoop 集群通常由一个 JobTracker和多个 TaskTracker 组成,JobTracker 用于任务调度,而 TaskTracker 用于执行任务[14]。实现流程图如图 2-2 所示:
2.2 小文件存储技术
HDFS 的设计初衷是为了存储与分析平台中的静态大文件[26],这样在存储小文件时就存在着很大的局限性。小文件问题在 HDFS 上的局限性主要体现在以下几个方面:1,海量的小文件将会导致 NameNode 耗费大量的内存用于进行文件元数据的存储,这对 NameNode 结点的内存要求特别高[27];2, HDFS 对文件存储的流程与寻址机制不适合存储大量的小文件;3,由于 HDFS 缺少对于文件的预取与缓存策略将导致它对大量小文件的读取时具有较大的延迟[28]。因为 HDFS 对于海量小文件存储所有的局限性,所以需要在 HDFS 上提高对于小文件存储的存储和读取效率[29],主要的研究方案有以下几种:1. Hadoop 本身也自带了一种小文件解决方案-Hadoop Archive[30]。为了提高NameNode 对于内存的利用率,Hadoop Archive 通过将合并小文件为 HAR 文件的策略用以减少小文件的数目,然后再将合并后的 HAR 文件存入 DataNode 结点之中[31]。但是 Hadoop Archive 工具具有很多的不足之处。第三章 基于云的多媒体管理平台架构研究 .............23
3.1 业务模块 ....................243.2 体系框架 ....................25
3.3 平台服务架构 .................26
3.4 服务流程分析 ............27
第四章 基于 Ceph 的多媒体存储技术研究............. 33
4.1 Ceph 小文件问题..........33
4.2 待解决问题 ............34
4.3 多媒体管理小文件优化 ................35
第五章 多媒体视频分布式转码 .........52
5.1 视频转码问题 ................52
5.2 待解决问题 ..............52
5.3 分布式转码优化 ..........53
第 5 章 多媒体视频分布式转码
5.1 视频转码问题
随着视频业的发展,视频的编码格式,封装格式越来越多样化,码率分辨率等变得越来越大,不同格式视频之间的转码工作越来越重要。而视频转码工作对计算机的性能要求很高,涉及到视频的编码、解码等一系列操作,而且视频转码对时效性要求较高,现有的普通计算机根本满足不了转码的需求。专用的转码服务器价格又太过昂贵,而且专用视频转码服务器只是在处理单个任务的时候速度比较快,一旦转码任务量变大的时候,专用视频转码服务器的处理能力也就显得不足了。因此我们需要一种价格相对低廉,可扩展性强,能满足快速转码的视频转码系统。5.2 待解决问题
通过对现有的视频转码构架的分析,发现存在以下问题:1.存储方式。随着互联网和网络技术的不断发展,媒体资源库中将会需要存储海量的视频文件,而单单依靠传统的单机硬盘的保存模式,早已完全不能适应现在的业务需求。一方面,会造成数据的重复存储;另一方面数据的可靠性与安全性得不到充分的保证等,所以应平台不断增长的视频存储需求,我们需要采用分布式存储的方式,这样的存储方式即可解决大容量数据的存储,也可以实现对于视频数据的分析与处理。2.无法完成视频的分析与处理。传统方式的视频文件存储方式,往往无法实现这些视频数据的实时分析与处理,而在现在的平台业务需求中,往往需要对存储的视频文件进行处理,挖掘重要的信息,进行码率的转换等等,实现存储与分析的一体化。..........
第 6 章 总结与展望
多媒体文件体积小、数量繁多是制约平台文件高效存储的头等难题,所以本文首先需要解决的就是平台上海量小文件的存储问题。在传统解决小文件存储的问题上,大多是针对的 HDFS 平台,而新一代的分布式文件系统 Ceph,无论是性能还是安全性上都优越于 HDFS,所以本文在 Ceph 的基础上提高小文件的云存储效率;同时传统研究中都忽略了文件彼此之间的相关性,这将导致文件在进行读取时效率会较差,,所以本文采用文件语义聚类的方式,融合了当下流行的 word2vec工具计算词语之间的相似度,提高了相似度计算的准确性,并通过语义聚类的方法实现了文件的关联聚类,将彼此关系密切的小文件合并到一个大文件中去,在很大程度上提高了文件的预取效率。
........
参考文献(略)
本文编号:68299
本文链接:https://www.wllwen.com/wenshubaike/lwfw/68299.html