基于Hive的物流数据仓库研究与实现
本文关键词:基于Hive的物流数据仓库研究与实现,由笔耕文化传播整理发布。
【摘要】:近年来,随着大数据技术的发展和应用,Hadoop已经得到学术界和工业界的广泛认可。Hive作为构建于Hadoop集群之上的开源数据仓库应用,具备模式自由、高可扩展性和高容错性的特点,能够很好地满足企业级数据仓库的需求。因此,越来越多的物流企业开始考虑如何利用Hive数据仓库带来的优势,完善自身的信息化建设。本文以某物流信息系统软件公司(以下称DK公司)的智慧物流大数据平台项目为背景,在充分研究物流公司业务需求的基础上,对基于Hive的物流数据仓库进行了总体架构设计,同时选择了开发语言,并分析了实现方法。针对物流企业数据仓库扩展性不好、运行自动化程度不高、处理大规模数据效果较差等问题,在对基于Hive的物流数据仓库进行分析和设计的基础上,本文提出物流数据仓库的具体实现方案,该数据仓库结合高校云平台虚拟化技术,能够提供高可扩展性。另外,数据仓库的数据抽取转换加载过程和数据查询分析处理过程能够满足自动化需求,不需要任何人工干预。并且利用MapReduce并行计算的优势,能够很好地支持大规模物流数据的处理。本文首先对国内外现状和大数据相关技术进行介绍,主要对比了Hive数据仓库和关系型数据库,研究了Hive数据仓库的优缺点,并提出其适用场景。然后,以DK公司智慧物流大数据平台项目为背景,对基于Hive的物流数据仓库进行需求分析和系统架构设计,提出实现该数据仓库的技术方案。进而基于学校云平台,部署了Hadoop、Sqoop和Hive环境,搭建了基于虚拟化技术的大数据处理平台,同时,基于此平台,从数据ETL和数据查询分析处理两方面实现了基于Hive的物流数据仓库,包括数据仓库的可扩展性研究、自动化多线程ETL脚本编写及其最佳线程数研究、Hive数据存储分析、Hive数据前置处理、查询分析处理、后置处理脚本实现。最后通过Hive数据仓库运行效果,评估了本项目的价值,从不同业务角度证明了该系统能够很好地支持企业管理层决策。
【关键词】:智慧物流大数据平台 Hive数据仓库 ETL 查询分析
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-6
- ABSTRACT6-9
- 1 绪论9-16
- 1.1 选题背景和意义9-10
- 1.2 国内外研究现状10-11
- 1.3 研究内容11-14
- 1.4 论文组织结构14-16
- 2 相关技术16-30
- 2.1 Hadoop16-17
- 2.2 传统数据仓库17-20
- 2.3 Hive数据仓库20-26
- 2.4 Sqoop26-28
- 2.5 数据ETL28-29
- 2.6 本章小结29-30
- 3 基于Hive的物流数据仓库分析与设计30-42
- 3.1 需求整理30-34
- 3.1.1 功能性需求30-33
- 3.1.2 非功能性需求33-34
- 3.2 系统设计34-36
- 3.2.1 总体架构设计34-35
- 3.2.2 开发语言选择35-36
- 3.3 技术方案36-41
- 3.3.0 数据处理平台36-37
- 3.3.1 数据ETL37
- 3.3.2 数据存储37-39
- 3.3.3 前置处理39-40
- 3.3.4 查询分析处理40
- 3.3.5 后置处理40-41
- 3.3.6 Web设计41
- 3.4 本章小结41-42
- 4 基于Hive的物流数据仓库实现42-68
- 4.1 基于虚拟化的大数据平台搭建42-54
- 4.1.1 Hadoop集群搭建42-49
- 4.1.2 Hive环境部署49-51
- 4.1.3 Sqoop环境部署51-53
- 4.1.4 数据仓库扩展53-54
- 4.2 数据ETL自动化54-59
- 4.2.1 多线程ETL自动化54-57
- 4.2.2 ETL最佳线程数研究57-59
- 4.3 数据处理实现59-64
- 4.3.1 前置处理59-61
- 4.3.2 查询分析处理61-63
- 4.3.3 后置处理63-64
- 4.4 Web应用64-67
- 4.5 本章小结67-68
- 5 基于Hive的物流数据仓库运行68-77
- 5.1 Hive数据仓库运行68-70
- 5.1.1 ETL过程监控68-69
- 5.1.2 数据处理过程监控69-70
- 5.2 Web展示70-76
- 5.2.1 面单全程分析71
- 5.2.2 面单妥投分析71-74
- 5.2.3 扫描流量分析74
- 5.2.4 网点吞吐分析74-75
- 5.2.5 流向时效分析75-76
- 5.2.6 快递财务看板76
- 5.3 本章小结76-77
- 6 总结与展望77-79
- 6.1 总结77
- 6.2 展望77-79
- 参考文献79-81
- 攻读硕士期间发表的论文81-82
- 致谢82
【参考文献】
中国期刊全文数据库 前10条
1 冯强;郑垂勇;;商业智能技术在物流企业数据仓库设计中的应用[J];物流技术;2015年14期
2 王缓缓;郭敬义;张警灿;余肖生;;基于Hadoop的数据仓库构建模式研究[J];重庆理工大学学报(自然科学);2015年07期
3 孔晓华;;OLAP技术在进口图书数据分析中的应用研究[J];电子科学技术;2015年04期
4 吴明礼;张宏安;李也白;;基于Hadoop的高性能数据仓库建设研究[J];信息与电脑(理论版);2015年09期
5 于鹃;;数据仓库与大数据融合的探讨[J];电信科学;2015年03期
6 郑柏恒;孟文;易东;梁晓波;;在Hadoop集群下的智能电网数据云仓库设计[J];制造业自动化;2014年19期
7 黄永勤;;国外大数据研究热点及发展趋势探析[J];情报杂志;2014年06期
8 王德文;肖凯;肖磊;;基于Hive的电力设备状态信息数据仓库[J];电力系统保护与控制;2013年09期
9 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
10 牛瑞瑞;;一种基于数据仓库的物流系统构建研究[J];信息与电脑(理论版);2012年11期
中国硕士学位论文全文数据库 前10条
1 卢伟涛;海量数据分析平台中数据交换模块的研究和实现[D];北京邮电大学;2015年
2 张京一;基于Hadoop的Web查询平台的权限控制与性能优化模块[D];北京邮电大学;2015年
3 胡靖枫;商务智能在企业物流决策中的应用研究[D];浙江理工大学;2015年
4 费仕忆;Hadoop大数据平台与传统数据仓库的协作研究[D];东华大学;2014年
5 王玉梅;T公司物流管理信息系统的方案设计[D];大连海事大学;2014年
6 黄佳;并行ETL工具可扩展技术的研究和开发[D];北京邮电大学;2014年
7 吴娟;一个视频网站数据统计系统的设计与实现[D];南京大学;2012年
8 肖之慰;面向多核集群的层次化MapReduce模型的设计与实现[D];复旦大学;2012年
9 贾文娟;基于hive分布式计算与数据挖掘的关联性营销的设计与实现[D];北京交通大学;2011年
10 叶文宸;基于hive的性能优化方法的研究与实践[D];南京大学;2011年
本文关键词:基于Hive的物流数据仓库研究与实现,,由笔耕文化传播整理发布。
本文编号:424964
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/424964.html