基于云计算的海量教学资源存储模型的研究与实现
发布时间:2020-07-16 14:03
【摘要】:随着网络技术的快速发展以及我国高等教育实行信息化办学的不断推进,很多高校在教学信息化的过程中所产生的各类教学资源数据量也在高速增长。传统的教学资源存储方式已经难以满足日益增长的数据存储需求,各高校也因此而面临教学资源分散、资源利用率低以及资源维护成本高等严峻问题。近几年以来,云计算在海量数据存储以及处理方面的优势在教育领域也得到了应用和推广,本文主要针对当前高校对于教学资源存储的需求以及海量教学资源存储模型方面进行分析和研究。因此,本文在很多人的研究基础之上做了以下几个方面研究工作:首先,云计算在海量数据存储方面的强大优势正好可以解决高校当前对于海量教学资源存储的问题,本文对现有的海量数据存储模型进行了研究和分析,并结合Hadoop的集群技术,将高校信息化的海量教学资源存储模型部署在Hadoop平台之上,通过云计算核心算法MapReduce对高校的教学资源数据进行分类处理,最后把教学资源存储在Hadoop的分布式文件系统HDFS(Hadoop Distributed File System)之中。该存储模型不仅克服了传统教学资源存储方式的不足,同时还提高了数据存储的效率。其次,在研究了MapReduce算法基本原理及应用的基础上,针对当前海量教学资源存储的需求,本文应用了一种基于云计算环境下的改进型MapReduce计算模型。该模型采用了两次索引分类存储模型的解决方案,在传统的计算结果中建立一个反向索引表,同时在第二次的计算处理的时候对教学资源通过权值来进行分类,这样经过两次分类以后,索引就是有了权值的方向索引表和一个反向索引表。然后,通过测试比较改进前后的MapReduce算法模型数据处理性能,实验证明了改进型MapReduce算法模型提高了海量教学资源数据存储模型的存储能力和计算性能。最后,根据学校现有的实验条件,搭建和部署了Hadoop完全分布式集群并进行存储模型的测试。实验结果表明,基于云计算的海量教学资源数据存储模型是高效且可行的。
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【图文】:
图 2.1 GFS 体系结构Google 分布式文件系统 GFS 将整个文件系统的节点分成了三种角色:GFSMaster(主节点服务器),GFS Chunkserver(数据块服务器,简称 CS)以及GFS Client(客户端)。GFS 文件系统将文件分成固定大小的数据块(Chunk),这种固定大小的的数据文件是在创建的时候分成一个 64 位的数据块。每一个数据块在服务器之上都是以普通 Linux 文件的形式进行存储的,为每一个数据块存储在磁盘上的文件创建一个快文件。为了保证数据存储的安全性以及可靠性,每一分数据都在不同的机器将复制多分,默认值是三份。主节点之上的数据服务器以及那些系统维护、文件名称空间、GFS 文件之间的映射块和块的位置信息。其中主节点的元数据文件负责整个系统的总体控制,如存储管理、回收无用的片块,块数据复制等等。往往集群中的主节点和其他节点信息交换和比较。客户端 GFS 外部访问接口提供了很多针对性的服务程序,这都是是一组特殊的接口,不遵循 POSIX 规范,以及正式提供相应的库。客户端访问 GFS,首先
的云”的发展,将帮助客户快速探索云计算基础设施以实现海量数据存储和处理操作。2.3.3 亚马逊云计算 AWS亚马逊的亚马逊 Web 服务(AWS)[41]在 2006 年正式推出,以 Web 服务的形式面向企业提供云基础设施服务。它的主要优势之一是可以根据客户的具体业务发展扩展服务,并且可以成为取代以前的资本和基础设施相对较低的成本。亚马逊的云服务提供众多的云计算服务,基本涵盖了 IaaS、PaaS、SaaS 这三个层次。亚马逊目前已经为全球一百多个国家或地区的企业或者是个人提供云计算服务的支持。亚马逊的云服务数据中心位于美国、欧洲、巴西、新加坡和日本。AWS 的迅速发展逐渐进入云计算的一个真正的领导者,一旦与 AmazonAWS 官方在中国建立起云服务之后,就很可能会有很多的国内企业云计算发展而受到深刻地影响和研究,目前国内像淘宝、网易、新浪、和华为提供类似的云计算服务。Amazon 云平台的服务主要分为一下几个部分,如图 2.2 所示:
图 2.3 MapReduce 计算模型Map 阶段任务(job)通常是在输入数据之后,对数据进行分割成独立的数据块,通过 Map 任务完全并行处理的这个方法把数据进行分割。通常输入和输出的数据都是用 MapReduce 存储在文件系统当中。通常,MapReduce 框架和分布式文件系统运行在相同的一组节点之上,也就是说,任务调度节点和主节点节点通常在一起。该配置允许框架那些有良好的节点上的数据有效地调度任务,这可以使网络带宽是非常有效地利用整个集群。MapReduce框架由一个主JobTracker 和每个集群节点的TaskTracker一起。主要是负责的所有数据处理任务的调度来构成作业,这些任务分布在不同的奴隶,主人监控执行,执行的任务失败了。唯一的负责执行任务分配的就只能是主人节点来执行相应的任务。2.5 本章小结
本文编号:2758098
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【图文】:
图 2.1 GFS 体系结构Google 分布式文件系统 GFS 将整个文件系统的节点分成了三种角色:GFSMaster(主节点服务器),GFS Chunkserver(数据块服务器,简称 CS)以及GFS Client(客户端)。GFS 文件系统将文件分成固定大小的数据块(Chunk),这种固定大小的的数据文件是在创建的时候分成一个 64 位的数据块。每一个数据块在服务器之上都是以普通 Linux 文件的形式进行存储的,为每一个数据块存储在磁盘上的文件创建一个快文件。为了保证数据存储的安全性以及可靠性,每一分数据都在不同的机器将复制多分,默认值是三份。主节点之上的数据服务器以及那些系统维护、文件名称空间、GFS 文件之间的映射块和块的位置信息。其中主节点的元数据文件负责整个系统的总体控制,如存储管理、回收无用的片块,块数据复制等等。往往集群中的主节点和其他节点信息交换和比较。客户端 GFS 外部访问接口提供了很多针对性的服务程序,这都是是一组特殊的接口,不遵循 POSIX 规范,以及正式提供相应的库。客户端访问 GFS,首先
的云”的发展,将帮助客户快速探索云计算基础设施以实现海量数据存储和处理操作。2.3.3 亚马逊云计算 AWS亚马逊的亚马逊 Web 服务(AWS)[41]在 2006 年正式推出,以 Web 服务的形式面向企业提供云基础设施服务。它的主要优势之一是可以根据客户的具体业务发展扩展服务,并且可以成为取代以前的资本和基础设施相对较低的成本。亚马逊的云服务提供众多的云计算服务,基本涵盖了 IaaS、PaaS、SaaS 这三个层次。亚马逊目前已经为全球一百多个国家或地区的企业或者是个人提供云计算服务的支持。亚马逊的云服务数据中心位于美国、欧洲、巴西、新加坡和日本。AWS 的迅速发展逐渐进入云计算的一个真正的领导者,一旦与 AmazonAWS 官方在中国建立起云服务之后,就很可能会有很多的国内企业云计算发展而受到深刻地影响和研究,目前国内像淘宝、网易、新浪、和华为提供类似的云计算服务。Amazon 云平台的服务主要分为一下几个部分,如图 2.2 所示:
图 2.3 MapReduce 计算模型Map 阶段任务(job)通常是在输入数据之后,对数据进行分割成独立的数据块,通过 Map 任务完全并行处理的这个方法把数据进行分割。通常输入和输出的数据都是用 MapReduce 存储在文件系统当中。通常,MapReduce 框架和分布式文件系统运行在相同的一组节点之上,也就是说,任务调度节点和主节点节点通常在一起。该配置允许框架那些有良好的节点上的数据有效地调度任务,这可以使网络带宽是非常有效地利用整个集群。MapReduce框架由一个主JobTracker 和每个集群节点的TaskTracker一起。主要是负责的所有数据处理任务的调度来构成作业,这些任务分布在不同的奴隶,主人监控执行,执行的任务失败了。唯一的负责执行任务分配的就只能是主人节点来执行相应的任务。2.5 本章小结
【参考文献】
相关期刊论文 前1条
1 张健;;云计算概念和影响力解析[J];电信网技术;2009年01期
相关硕士学位论文 前1条
1 刘会改;面向云计算架构的资源管理的研究与实现[D];北京邮电大学;2011年
本文编号:2758098
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2758098.html