云环境下大数据迁移与存储研究
发布时间:2022-01-07 05:34
为了应对快速数据增长对在线业务运营平台的压力,本论文设计实现了一种云平台上大数据迁移存储系统。该系统针对企业日常运营管理数据,实现了一种数据迁移方案,并优化了基于Hadoop平台的数据存储方案。现有业务运营平台数据通常是存储在数据库中的结构化数据,结合结构化数据特点和存储环境,综合考虑迁移效率、成本等问题,本文采用了基于Sqoop的数据迁移系统设计,并从数据量大小、字段划分类型、Map任务数三个方面对迁移性能进行分析,此种设计能够在系统简洁流畅稳定运行的前提下充分保重数据迁移的安全性,同时能够保证数据到达迁移目的存储系统后能够自动化归档。Hadoop平台提供了HDFS分布式文件存储系统,同时又有MapReduce分布式计算框架的支撑,在此基础之上,本文采用了Hadoop的两个数据管理组件:HBase和Hive,通过分析各自优缺点,取长补短,实现了基于HBase和Hive的数据整合存储系统,并对比分析单独使用Hive和使用整合查询系统的查询性能,该系统能在不破坏组件各自功能完整性的情况下更好的发挥数据查询性能。经过测试,系统能够完整的实现数据的迁移,并且基于HBase和Hive的整合存储...
【文章来源】:昆明理工大学云南省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
中智云硬件架构
第二章相关技术分析13图2.3中智云平台认证云平台主要包含了项目和身份管理模块,管理员账号下还包含管理员模块。项目模块中包含着计算和网络服务的相关信息,我们可以通过计算服务的云主机数量查看本用户创建的云主机信息,如图2.4所示。本论文后续章节中使用到的大数据平台服务器主机都是通过此云平台创建的云主机。图2.4云主机2.2Hadoop生态系统简介广义的Hadoop是指Apache基金会下的一个处理大数据的分布式软件平台。Hadoop自从2006年面世以来,技术发展迅猛,其技术生态圈也日益壮大,从最初只有HDFS和MapReduce两个组件,发展到当前多达六十多个组件,覆盖范围包含了从数据存储、执行引擎到数据访问框架等各个方面[27]。Hadoop的本地化计算理念、弹性的多层级架构、高效的分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析上的表现远远超过其他产品,不但被广泛应用于各个行业的数据分析和处理,更已成为各大企业数据平台的首眩Hadoop平台最为核心的两个模块是HDFS和MapReduce,其中HDFS是一种分布式文件系统,为整个Hadoop系统提供底层的存储支撑,而MapReduce则
第二章相关技术分析13图2.3中智云平台认证云平台主要包含了项目和身份管理模块,管理员账号下还包含管理员模块。项目模块中包含着计算和网络服务的相关信息,我们可以通过计算服务的云主机数量查看本用户创建的云主机信息,如图2.4所示。本论文后续章节中使用到的大数据平台服务器主机都是通过此云平台创建的云主机。图2.4云主机2.2Hadoop生态系统简介广义的Hadoop是指Apache基金会下的一个处理大数据的分布式软件平台。Hadoop自从2006年面世以来,技术发展迅猛,其技术生态圈也日益壮大,从最初只有HDFS和MapReduce两个组件,发展到当前多达六十多个组件,覆盖范围包含了从数据存储、执行引擎到数据访问框架等各个方面[27]。Hadoop的本地化计算理念、弹性的多层级架构、高效的分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析上的表现远远超过其他产品,不但被广泛应用于各个行业的数据分析和处理,更已成为各大企业数据平台的首眩Hadoop平台最为核心的两个模块是HDFS和MapReduce,其中HDFS是一种分布式文件系统,为整个Hadoop系统提供底层的存储支撑,而MapReduce则
【参考文献】:
期刊论文
[1]浅谈云计算的发展与挑战[J]. 夏铭远. 中国新通信. 2018(15)
[2]云计算发展现状及趋势研究[J]. 李曼曼. 无线互联科技. 2018(05)
[3]大数据的存储管理技术[J]. 欧艳鹏. 电子技术与软件工程. 2017(21)
[4]云计算研究现状综述[J]. 曾旭禹. 中国新通信. 2015(12)
[5]基于MapReduce的Hadoop大表导入编程模型[J]. 陈吉荣,乐嘉锦. 计算机应用. 2013(09)
博士论文
[1]模块化数据中心网拓扑结构及特性的研究[D]. 韩冬.华南理工大学 2017
硕士论文
[1]基于提升树的作物生长预测模型的研究与系统构建[D]. 赖新明.北京交通大学 2017
[2]基于Hadoop的海量图片检索平台的构建与研究[D]. 王伟晨.内蒙古农业大学 2017
[3]高性能和高可用分布式键值存储系统的研究与设计[D]. 廖岩.华南理工大学 2017
[4]Linux容器防护技术研究[D]. 魏小锋.解放军信息工程大学 2017
[5]海量动漫资源中小文件存储技术研究与应用[D]. 周莹.东北大学 2017
[6]基于物联网的海洋平台监测数据管理研究[D]. 包乐尔.大连理工大学 2016
[7]混合式键值大数据存储系统的研究[D]. 朱王兵.华南理工大学 2016
[8]针对内部管理员与外包商安全风险的可控云计算平台关键技术研究[D]. 向林波.北京邮电大学 2016
[9]低秩线性方程组与单变量多项式安全云外包计算方案[D]. 王婷.西安电子科技大学 2016
[10]基于大数据的信息物理融合系统的分析与设计方法[D]. 黎楚乾.广东工业大学 2015
本文编号:3573917
【文章来源】:昆明理工大学云南省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
中智云硬件架构
第二章相关技术分析13图2.3中智云平台认证云平台主要包含了项目和身份管理模块,管理员账号下还包含管理员模块。项目模块中包含着计算和网络服务的相关信息,我们可以通过计算服务的云主机数量查看本用户创建的云主机信息,如图2.4所示。本论文后续章节中使用到的大数据平台服务器主机都是通过此云平台创建的云主机。图2.4云主机2.2Hadoop生态系统简介广义的Hadoop是指Apache基金会下的一个处理大数据的分布式软件平台。Hadoop自从2006年面世以来,技术发展迅猛,其技术生态圈也日益壮大,从最初只有HDFS和MapReduce两个组件,发展到当前多达六十多个组件,覆盖范围包含了从数据存储、执行引擎到数据访问框架等各个方面[27]。Hadoop的本地化计算理念、弹性的多层级架构、高效的分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析上的表现远远超过其他产品,不但被广泛应用于各个行业的数据分析和处理,更已成为各大企业数据平台的首眩Hadoop平台最为核心的两个模块是HDFS和MapReduce,其中HDFS是一种分布式文件系统,为整个Hadoop系统提供底层的存储支撑,而MapReduce则
第二章相关技术分析13图2.3中智云平台认证云平台主要包含了项目和身份管理模块,管理员账号下还包含管理员模块。项目模块中包含着计算和网络服务的相关信息,我们可以通过计算服务的云主机数量查看本用户创建的云主机信息,如图2.4所示。本论文后续章节中使用到的大数据平台服务器主机都是通过此云平台创建的云主机。图2.4云主机2.2Hadoop生态系统简介广义的Hadoop是指Apache基金会下的一个处理大数据的分布式软件平台。Hadoop自从2006年面世以来,技术发展迅猛,其技术生态圈也日益壮大,从最初只有HDFS和MapReduce两个组件,发展到当前多达六十多个组件,覆盖范围包含了从数据存储、执行引擎到数据访问框架等各个方面[27]。Hadoop的本地化计算理念、弹性的多层级架构、高效的分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析上的表现远远超过其他产品,不但被广泛应用于各个行业的数据分析和处理,更已成为各大企业数据平台的首眩Hadoop平台最为核心的两个模块是HDFS和MapReduce,其中HDFS是一种分布式文件系统,为整个Hadoop系统提供底层的存储支撑,而MapReduce则
【参考文献】:
期刊论文
[1]浅谈云计算的发展与挑战[J]. 夏铭远. 中国新通信. 2018(15)
[2]云计算发展现状及趋势研究[J]. 李曼曼. 无线互联科技. 2018(05)
[3]大数据的存储管理技术[J]. 欧艳鹏. 电子技术与软件工程. 2017(21)
[4]云计算研究现状综述[J]. 曾旭禹. 中国新通信. 2015(12)
[5]基于MapReduce的Hadoop大表导入编程模型[J]. 陈吉荣,乐嘉锦. 计算机应用. 2013(09)
博士论文
[1]模块化数据中心网拓扑结构及特性的研究[D]. 韩冬.华南理工大学 2017
硕士论文
[1]基于提升树的作物生长预测模型的研究与系统构建[D]. 赖新明.北京交通大学 2017
[2]基于Hadoop的海量图片检索平台的构建与研究[D]. 王伟晨.内蒙古农业大学 2017
[3]高性能和高可用分布式键值存储系统的研究与设计[D]. 廖岩.华南理工大学 2017
[4]Linux容器防护技术研究[D]. 魏小锋.解放军信息工程大学 2017
[5]海量动漫资源中小文件存储技术研究与应用[D]. 周莹.东北大学 2017
[6]基于物联网的海洋平台监测数据管理研究[D]. 包乐尔.大连理工大学 2016
[7]混合式键值大数据存储系统的研究[D]. 朱王兵.华南理工大学 2016
[8]针对内部管理员与外包商安全风险的可控云计算平台关键技术研究[D]. 向林波.北京邮电大学 2016
[9]低秩线性方程组与单变量多项式安全云外包计算方案[D]. 王婷.西安电子科技大学 2016
[10]基于大数据的信息物理融合系统的分析与设计方法[D]. 黎楚乾.广东工业大学 2015
本文编号:3573917
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3573917.html