基于云计算的企业数据归档系统设计与实现
发布时间:2019-10-18 09:13
【摘要】:随着互联网技术的不断发展,我们正处于一个信息爆炸式增长的时代。企业作为应用互联网技术最广泛的群体,其信息增长速度更是十分惊人。在如此庞大的数据中,尤其是以电子邮件和即时通讯消息为代表的半结构化数据和以各类电子文件为代表的非结构化数据的增长速度最快。而如何高效地管理这些数据,已经成为了企业信息化部门的一项重要课题。数据归档系统使企业可以在不丢失对数据的实时访问能力的情况下将大量很少访问的历史数据从昂贵的主存储中解放出来,转存入相对廉价的设备中,有效地为企业降低了运营成本。另一方面,随着美国的萨班斯法案、中国的《基金管理公司投资管理人员管理指导意见》等一系列关于企业信息管理的法案出台,对企业有关商业数据的举证、保护和存储都提出了更高的要求。良好的归档系统能够提供安全的数据保护和高效的数据检索服务,使企业能够应对各种举证等法律要求。传统归档系统往往采用分布式架构来处理企业的大量数据,这种做法存在部署复杂,系统可靠性下降等问题。随着云计算技术的不断发展,我们逐渐意识到和传统归档系统相比,基于云计算的系统具有安全可靠、部署简单、资源利用率高等特点,基于云计算的技术来进行信息归档,能够显著提高企业用户数据归档的效率。本论文首先对数据归档系统及云计算在企业应用的现状和问题进行了分析。并在此基础上,提出了基于云计算的归档系统模型,将归档作为一种云服务对企业进行提供。然后,详细阐述了分布式文件系统和归档系统的设计机制及架构,并进行了实验和部署。最后,分析了整个系统的扩展性及一些不足之处,展望了未来的工作。
【图文】:
图2-1化doop任务流程示意图逡逑Hadoop有许多元素构成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存储化do叩集群中所有存储节点上的文件。图2-1是化do叩的运行流程;逡逑册FS(对于本文)的上一层是Map/Reduce引擎,该引擎由JobTrackers和逡逑TaskTrackers组成。Map邋/邋Reduce算法模型和册FS是化doop的两个核也组件。逡逑2.2邋Hadoop分布式文件系统逡逑册FS采用Master/Slave架构,由一个管理节点(NameNode)和多个数据节逡逑点化ataNode)组成?。管理节点用于管理集群中的数据节点,并记录文件系统中逡逑各个文件的基本信息和位置。数据节点则是真正存储文件数据的节点。其底层实逡逑现是把一个大文件切割成多个数据块并分散存储于不同DataNode上,每个数据逡逑块并不会只被存储在一个DataNode上,为了达到容错和提高吞吐量的目的,这逡逑些数据块会被拷贝到多个DataNode中,具体的拷贝份数则是用户可自行配置逡逑的。而每个文件的分割情况和数据块的存储位置,则是记录在NameNode中,因逡逑此NameNode是邮FS集群中最重要的一个节点。对于用户来说
r^f逦\( ̄\(\逡逑I邋I邋i邋I邋t邋S/邋t邋I逡逑CjCjCKj逡逑图2-1化doop任务流程示意图逡逑Hadoop有许多元素构成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存储化do叩集群中所有存储节点上的文件。图2-1是化do叩的运行流程;逡逑册FS(对于本文)的上一层是Map/Reduce引擎,该引擎由JobTrackers和逡逑TaskTrackers组成。Map邋/邋Reduce算法模型和册FS是化doop的两个核也组件。逡逑2.2邋Hadoop分布式文件系统逡逑册FS采用Master/Slave架构,由一个管理节点(NameNode)和多个数据节逡逑点化ataNode)组成?。管理节点用于管理集群中的数据节点,并记录文件系统中逡逑各个文件的基本信息和位置。数据节点则是真正存储文件数据的节点。其底层实逡逑现是把一个大文件切割成多个数据块并分散存储于不同DataNode上,每个数据逡逑块并不会只被存储在一个DataNode上,为了达到容错和提高吞吐量的目的,这逡逑些数据块会被拷贝到多个DataNode中,,具体的拷贝份数则是用户可自行配置逡逑的。而每个文件的分割情况和数据块的存储位置
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP311.13
本文编号:2551016
【图文】:
图2-1化doop任务流程示意图逡逑Hadoop有许多元素构成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存储化do叩集群中所有存储节点上的文件。图2-1是化do叩的运行流程;逡逑册FS(对于本文)的上一层是Map/Reduce引擎,该引擎由JobTrackers和逡逑TaskTrackers组成。Map邋/邋Reduce算法模型和册FS是化doop的两个核也组件。逡逑2.2邋Hadoop分布式文件系统逡逑册FS采用Master/Slave架构,由一个管理节点(NameNode)和多个数据节逡逑点化ataNode)组成?。管理节点用于管理集群中的数据节点,并记录文件系统中逡逑各个文件的基本信息和位置。数据节点则是真正存储文件数据的节点。其底层实逡逑现是把一个大文件切割成多个数据块并分散存储于不同DataNode上,每个数据逡逑块并不会只被存储在一个DataNode上,为了达到容错和提高吞吐量的目的,这逡逑些数据块会被拷贝到多个DataNode中,具体的拷贝份数则是用户可自行配置逡逑的。而每个文件的分割情况和数据块的存储位置,则是记录在NameNode中,因逡逑此NameNode是邮FS集群中最重要的一个节点。对于用户来说
r^f逦\( ̄\(\逡逑I邋I邋i邋I邋t邋S/邋t邋I逡逑CjCjCKj逡逑图2-1化doop任务流程示意图逡逑Hadoop有许多元素构成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存储化do叩集群中所有存储节点上的文件。图2-1是化do叩的运行流程;逡逑册FS(对于本文)的上一层是Map/Reduce引擎,该引擎由JobTrackers和逡逑TaskTrackers组成。Map邋/邋Reduce算法模型和册FS是化doop的两个核也组件。逡逑2.2邋Hadoop分布式文件系统逡逑册FS采用Master/Slave架构,由一个管理节点(NameNode)和多个数据节逡逑点化ataNode)组成?。管理节点用于管理集群中的数据节点,并记录文件系统中逡逑各个文件的基本信息和位置。数据节点则是真正存储文件数据的节点。其底层实逡逑现是把一个大文件切割成多个数据块并分散存储于不同DataNode上,每个数据逡逑块并不会只被存储在一个DataNode上,为了达到容错和提高吞吐量的目的,这逡逑些数据块会被拷贝到多个DataNode中,,具体的拷贝份数则是用户可自行配置逡逑的。而每个文件的分割情况和数据块的存储位置
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP311.13
【参考文献】
相关期刊论文 前1条
1 刘越男;;聚焦数字时代归档的变迁[J];北京档案;2007年07期
本文编号:2551016
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2551016.html