企业环境下分布式数据仓库的设计与优化技术的研究
本文选题:分布式系统 + 数据仓库 ; 参考:《北京邮电大学》2016年硕士论文
【摘要】:进入新世纪以来,在互联网、物联网技术的带动下,企业可获得的数据量也越来越大。企业对数据的需求也不再只针对日常的事务处理,很多企业开始构建大型的数据仓库来存储和分析面临的海量数据。数据仓库收集不同来源和不同结构的用户数据,并把这些数据按主题进行分类和集成,使得对同一主题的数据的分析结果更有针对性和可靠性,对管理人员的决策也更有参考价值。目前传统集中式的数据仓库由于在扩展性和性能方面的不足,已开始无法承受对海量数据的处理压力。Hadoop的兴起使人们认识到分布式技术的强大计算能力,分布式架构的数据仓库将成为未来数据仓库系统的发展方向。针对这种情况,本文从数据仓库的分布式架构设计、元数据的统一管理、数据仓库技术与Hadoop开源框架相结合三方面做出分析和设计。结合Hadoop开源框架、My SQL数据库、分布式存储技术、impala并行查询技术,设计了一套完整的系统架构方案。以MapReduce任务的方式完成对源数据的集成,即ETL(Extract-Transform-Load)工作。在元数据管理方面,研究了数据仓库系统的元数据管理机制,以及impala查询引擎的元数据实现方案,设计和实现了基于MySQL的集中式元数据管理模块。该系统首先通过MapReduce任务对源数据进行抽取和转换,将中间结果数据按照用户指定的数据切分方式进行数据的分布式划分,之后进行并行导入;由MySQL数据库以lib的形式存储和管理系统的元数据;存储部分使用一种高效单机存储引擎,实现各存储节点对数据的高效存储和扫描;数据的查询通过impala并行查询引擎实现,查询与存储共用一套元数据方案,实现了元数据信息的统一管理。通过该系统,企业用户不仅可以实现海量数据的高效管理,也可对数据进行多维分析处理,为企业策略的指定和调整提供数据支持。最后,通过实验测试分布式系统的导入和查询性能,通过对测试结果的分析说明该系统在处理企业数据方面是有效的。
[Abstract]:Since entering the new century, with the Internet of things and Internet of things technology, enterprises can obtain more and more data. The demand of enterprises for data is no longer only for daily transaction processing, many enterprises begin to build large data warehouse to store and analyze the huge amount of data. The data warehouse collects user data from different sources and structures, classifies and integrates the data by topic, making the analysis of data on the same subject more relevant and reliable, It is also more valuable for managers to make decisions. At present, due to the lack of scalability and performance of traditional centralized data warehouse, it has been unable to bear the pressure of processing mass data. Hadoop has made people realize the powerful computing power of distributed technology. Data warehouse with distributed architecture will become the development direction of data warehouse system in the future. Aiming at this situation, this paper analyzes and designs the distributed architecture design of data warehouse, the unified management of metadata, the combination of data warehouse technology and Hadoop open source framework. Combined with Hadoop open source framework, my SQL database, distributed storage technology and impala parallel query technology, a complete system architecture scheme is designed. The integration of source data is accomplished by MapReduce task, that is, ETLX Extract-Transform-Load. In the aspect of metadata management, the metadata management mechanism of data warehouse system and the metadata implementation scheme of impala query engine are studied. The centralized metadata management module based on MySQL is designed and implemented. The system firstly extracts and transforms the source data through the MapReduce task, divides the intermediate result data according to the data segmentation mode specified by the user, and then carries on the parallel import. The metadata of the system is stored and managed by the MySQL database in the form of lib. The storage part uses an efficient single-machine storage engine to realize the efficient storage and scanning of the data of each storage node, and the query of the data is realized by the impala parallel query engine. Query and storage share a set of metadata scheme to realize the unified management of metadata information. Through this system, enterprise users can not only realize the efficient management of massive data, but also carry out multidimensional analysis and processing of the data, and provide data support for the designation and adjustment of enterprise policies. Finally, the paper tests the import and query performance of the distributed system through experiments. The analysis of the test results shows that the system is effective in dealing with enterprise data.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 金岩;数据仓库与图书馆的发展[J];现代图书情报技术;2000年03期
2 史金红,吴永明;影响数据仓库成功的关键因素[J];电子工程师;2000年01期
3 宋玉长,李本勇,郭小红;如何构建银行数据仓库[J];上海微型计算机;2000年47期
4 贾纳豫;数据仓库的概念与机制[J];玉溪师范学院学报;2000年S1期
5 陈京民;数据仓库开发的规划研究[J];计算机与网络;2000年09期
6 杨顺生;数据仓库锁紧商业银行(上)[J];中国计算机用户;2000年04期
7 ;数据仓库仔细看[J];每周电脑报;2000年10期
8 禾川;;数据仓库起热潮之应用篇[J];每周电脑报;2000年48期
9 杨顺生;;中国商业银行应实施数据仓库[J];金融电子化;2000年03期
10 顾晓姝;;数据仓库体系及其实现[J];运城高等专科学校学报;2000年S1期
相关会议论文 前10条
1 陈金雄;刘雄飞;王庆森;;医院数据仓库的设计与实现[A];首届中国IT与医药卫生高层论坛论文集[C];2004年
2 何朝红;;数据仓库在我国企业的应用现状及实施策略分析[A];广西计算机学会2006年年会论文集[C];2006年
3 刘奇;;肿瘤专业数据仓库的建立[A];第四届中国肿瘤学术大会暨第五届海峡两岸肿瘤学术会议教育集[C];2006年
4 郭远远;舒红平;宫蕊;;基于数据仓库的构建和马尔可夫过程的应用研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 金周;;基于数据仓库的能耗指标查询体系[A];全国冶金自动化信息网2009年会论文集[C];2009年
6 李洁;李庆忠;王海洋;;一种有效的在线修改数据仓库算法[A];第十六届全国数据库学术会议论文集[C];1999年
7 冯建华;蒋旭东;刘建民;周立柱;;面向市场分析与预测的数据仓库平台[A];第十六届全国数据库学术会议论文集[C];1999年
8 王晓玲;谢鸿强;刘安;董逸生;;数据仓库建模工具的研制[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 张德辉;李建中;;多维压缩数据仓库上的并行聚集算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 潘海为;李建中;;数据仓库的并行加载算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
相关重要报纸文章 前10条
1 本报记者 于 岫;建设数据仓库 打造信息时代的“航母”[N];中国国门时报;2005年
2 庄川 编译;如何迈出实施数据仓库的第一步[N];中国计算机报;2005年
3 本报记者 龚杰;数据仓库解决策之惑[N];计算机世界;2004年
4 记者 王璐;上证所建成中国金融业最大数据仓库[N];上海证券报;2005年
5 ;数据仓库的历史[N];中华读书报;2003年
6 万振龙;动态数据仓库承接历史与未来[N];网络世界;2009年
7 本报记者 薛斐;数据仓库沙中淘金[N];计算机世界;2002年
8 本报记者 王向东;“数据仓库不是玩酷”[N];计算机世界;2003年
9 本报记者 潘永花;数据仓库峥嵘时[N];网络世界;2003年
10 本报记者 潘永花;数据仓库创新与众不同[N];网络世界;2010年
相关博士学位论文 前10条
1 宋旭东;企业集团数据仓库系统关键技术研究[D];大连理工大学;2010年
2 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
3 冯玉;数据仓库环境中近似查询处理技术研究[D];中国科学院研究生院(计算技术研究所);2002年
4 孙剑;海洋环境数据仓库与数据挖掘应用研究[D];中国海洋大学;2011年
5 栗然;电力负荷分析与预测的分布式数据仓库和数据挖掘研究[D];华北电力大学(河北);2009年
6 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
7 马军杰;基于数据仓库与联机处理的区域经济发展管理决策支持系统研究[D];华东师范大学;2007年
8 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
9 赵贵菊;勘探开发数据仓库的模型研究和应用[D];中国地质大学(北京);2010年
10 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
相关硕士学位论文 前10条
1 高鑫磊;企业环境下分布式数据仓库的设计与优化技术的研究[D];北京邮电大学;2016年
2 李佳航;基于数据仓库的银行中间业务系统研究[D];厦门大学;2008年
3 王R,
本文编号:1853721
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1853721.html