基于Hadoop的QAR数据组织分析关键技术
本文关键词:基于Hadoop的QAR数据组织分析关键技术
更多相关文章: Hadoop QAR 数据仓库 Hive H-mine
【摘要】:QAR(Quick Access Recorder)是大型客机上应用广泛的飞机状态数据记录装置,其中记载了丰富的飞行数据信息,具有较高的分析价值,目前主要以CSV(Comma Separated Variables)格式文件和关系型数据库两种形式存储。随着民航领域的快速发展,QAR数据的规模急剧增大,现有QAR数据存储组织方式不足以支撑海量数据存储,现有算法及其计算环境的运算速度、内外存容量面临严峻挑战。因此,构建新一代QAR数据组织分析架构,以满足航空公司在海量QAR数据存储与查询分析等方面的需求具有重要意义。针对现有QAR数据组织处理方式的不足,以Hadoop提供的高效分布式框架为基础,提出基于Hive的QAR数据仓库及其快速查询和分析方法。通过分析Hive优缺点及QAR数据的结构,构建了基于Hive的QAR数据仓库的存储结构和总体架构。基于Hive的QAR数据仓库能够加载CSV格式QAR文件并可以使用Sqoop等工具将已存储在关系型数据库中的QAR数据移植到构建的数据仓库中,实现了对主要的QAR存储格式兼容。为了获取QAR数据中隐藏的有价值的信息,需要使用一系列的方法分析QAR数据。其中,频繁模式挖掘是一种非常有效的数据挖掘方法,但是传统挖掘算法大多运行于单一设备上,仅适于处理小规模数据,无法处理Hive数据仓库存储的海量数据,因此需要将传统挖掘算法移植到分布式环境上。H-mine是一种高效的频繁模式挖掘算法,本文在深入分析H-mine算法的基础上,紧密结合MapReduce模型提供的高效分布式编程和运行框架,通过对H-mine算法频繁模式挖掘过程的并行化改进,提出一种新颖的基于MapReduce模型的H-mine算法(简称:MRH-mine)。MRH-mine能够为用户提供快速的大规模数据分析方法,实验表明基于Hive的QAR数据仓库与MRH-mine在面对海量QAR数据的情况下,具有良好的性能和扩展性。
【关键词】:Hadoop QAR 数据仓库 Hive H-mine
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:V247;TP311.13
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-14
- 1.1 研究背景及意义9-10
- 1.2 国内外研究现状10-11
- 1.3 本文主要内容11-12
- 1.4 论文组织12-14
- 第二章 相关理论与技术14-25
- 2.1 Hadoop14-20
- 2.1.1 MapReduce15-17
- 2.1.2 HDFS17-18
- 2.1.3 Hive18-20
- 2.2 数据仓库20-22
- 2.2.1 数据仓库定义20-21
- 2.2.2 数据仓库与操作数据库的区别21-22
- 2.3 频繁模式挖掘算法22-24
- 2.3.1 数据挖掘简述22-23
- 2.3.2 频繁模式挖掘算法23-24
- 2.4 本章小结24-25
- 第三章 基于Hive的QAR数据仓库25-40
- 3.1 数据仓库构建方案25
- 3.2 数据仓库系统结构25-27
- 3.3 数据仓库主题设计27-28
- 3.4 多维数据模型构建28-31
- 3.5 数据仓库工作流程设计与实现31-36
- 3.5.1 数据仓库工作流程设计31
- 3.5.2 数据仓库工作流程实现31-36
- 3.6 实验与分析36-39
- 3.6.1 实验环境36
- 3.6.2 实验环境监控36-37
- 3.6.3 实验数据37
- 3.6.4 实验结果与分析37-39
- 3.7 本章小结39-40
- 第四章 基于MapReduce的H-mine算法40-53
- 4.1 H-mine算法40-41
- 4.2 MRH-mine算法41-48
- 4.2.1 MRH-mine具体步骤42-47
- 4.2.2 MRH-mine整体流程47-48
- 4.3 实验与分析48-52
- 4.3.1 实验环境48-49
- 4.3.2 实验数据49
- 4.3.3 算法性能实验49-52
- 4.3.4 QAR分析实验52
- 4.4 本章小结52-53
- 第五章 总结与展望53-55
- 5.1 本文主要工作及特色53
- 5.2 下一步研究方向53-55
- 参考文献55-59
- 致谢59-60
- 作者简介60
【相似文献】
中国期刊全文数据库 前10条
1 邸书灵;成功实施数据仓库的关键技术研究[J];石家庄铁道学院学报;2002年01期
2 熊忠阳,张玉芳,吴中福;数据仓库数据加载技术[J];重庆大学学报(自然科学版);2002年02期
3 谭昕;数据仓库及其设计[J];安徽电力职工大学学报;2003年01期
4 许晓东,陈娟娟,刘霞;基于数据仓库的客户关系管理在证券行业中的应用[J];舰船电子工程;2004年04期
5 黄雪菊,郝常明,袁庆伟;提高数据仓库分析速度的方法探析[J];南昌工程学院学报;2005年03期
6 张宇华,何华猛,王戈;企业如何实施数据仓库[J];江西电力职业技术学院学报;2005年04期
7 潘海芸;浅谈数据仓库在环境保护工程中的应用及意义[J];治淮;2005年10期
8 王峥嵘;王铮钧;;数据仓库领域的排头兵[J];内蒙古科技与经济;2006年16期
9 冯毅;;银行业中数据仓库的构建方案[J];安徽水利水电职业技术学院学报;2006年03期
10 赵永霞;;浅析数据仓库[J];中国水运(下半月);2009年05期
中国重要会议论文全文数据库 前10条
1 陈金雄;刘雄飞;王庆森;;医院数据仓库的设计与实现[A];首届中国IT与医药卫生高层论坛论文集[C];2004年
2 何朝红;;数据仓库在我国企业的应用现状及实施策略分析[A];广西计算机学会2006年年会论文集[C];2006年
3 刘奇;;肿瘤专业数据仓库的建立[A];第四届中国肿瘤学术大会暨第五届海峡两岸肿瘤学术会议教育集[C];2006年
4 郭远远;舒红平;宫蕊;;基于数据仓库的构建和马尔可夫过程的应用研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 金周;;基于数据仓库的能耗指标查询体系[A];全国冶金自动化信息网2009年会论文集[C];2009年
6 李洁;李庆忠;王海洋;;一种有效的在线修改数据仓库算法[A];第十六届全国数据库学术会议论文集[C];1999年
7 冯建华;蒋旭东;刘建民;周立柱;;面向市场分析与预测的数据仓库平台[A];第十六届全国数据库学术会议论文集[C];1999年
8 王晓玲;谢鸿强;刘安;董逸生;;数据仓库建模工具的研制[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 张德辉;李建中;;多维压缩数据仓库上的并行聚集算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 潘海为;李建中;;数据仓库的并行加载算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 于 岫;建设数据仓库 打造信息时代的“航母”[N];中国国门时报;2005年
2 庄川 编译;如何迈出实施数据仓库的第一步[N];中国计算机报;2005年
3 本报记者 龚杰;数据仓库解决策之惑[N];计算机世界;2004年
4 记者 王璐;上证所建成中国金融业最大数据仓库[N];上海证券报;2005年
5 ;数据仓库的历史[N];中华读书报;2003年
6 万振龙;动态数据仓库承接历史与未来[N];网络世界;2009年
7 本报记者 薛斐;数据仓库沙中淘金[N];计算机世界;2002年
8 本报记者 王向东;“数据仓库不是玩酷”[N];计算机世界;2003年
9 本报记者 潘永花;数据仓库峥嵘时[N];网络世界;2003年
10 本报记者 潘永花;数据仓库创新与众不同[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 宋旭东;企业集团数据仓库系统关键技术研究[D];大连理工大学;2010年
2 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
3 冯玉;数据仓库环境中近似查询处理技术研究[D];中国科学院研究生院(计算技术研究所);2002年
4 孙剑;海洋环境数据仓库与数据挖掘应用研究[D];中国海洋大学;2011年
5 栗然;电力负荷分析与预测的分布式数据仓库和数据挖掘研究[D];华北电力大学(河北);2009年
6 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
7 马军杰;基于数据仓库与联机处理的区域经济发展管理决策支持系统研究[D];华东师范大学;2007年
8 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
9 赵贵菊;勘探开发数据仓库的模型研究和应用[D];中国地质大学(北京);2010年
10 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
中国硕士学位论文全文数据库 前10条
1 李佳航;基于数据仓库的银行中间业务系统研究[D];厦门大学;2008年
2 王R,
本文编号:1058119
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1058119.html