基于Sap Hana内存计算的大规模数据分析系统的设计与实现
本文关键词:基于Sap Hana内存计算的大规模数据分析系统的设计与实现
更多相关文章: SAP ERP HANA 内存计算 K-means算法 Apriori算法
【摘要】:在大数据时代,企业所掌握的信息已经成为其最为主要的竞争力来源。如何通过大数据分析技术对掌握的信息进行有效的管理和分析,从中挖掘价值,已经成为现代企业从信息主管到CIO最为关注的话题。中国石油化工集团公司业(以下简称中石化)作为全球最大的企业之一,业务领域涵盖整个石化行业的全部生态链,包含多条产品线的覆盖全国乃至全球的产销渠道体系。按照中石化信息部的规划要求,积极实施和推动企业级数据仓库(EDW)建设。构建了EDW+BW架构来支撑企业的分析需求和报表需求。帮助企业管理者及时掌握企业运行状况。各企业业务部门依托此系统出具日报、月报,并进行分析和监控。而伴随着近几年中石化业务的不断扩大、信息技术的提高以及企业对信息化建设力度的加大,ERP系统及其他外围信息系统的建设,企业产生的数据量成爆炸式增长。BW系统业务及财务报表系统数据量快速增长。截止2015年初EDW的数据量已经超过30T,数据增长的速度还在逐年加快。与此同时企业业务需求水平不断提高,现有的EDW+BW模式不能完全的满足各部门对系统性能、计算能力、响应速度提出的高要求,中石化开始尝试SAP HANA系统在销售板块的应用。近年来,计算机体系结构已经发生变化。现在多核处理器已成为标准,随着处理器内核之间的快速通信而实现的并行处理,而SAP HANA是由SAP推出的最新技术。其核心利用创新型的内存技术来存储数据,特别适合处理数据量非常大的表格型或关系型的数据,具有前所未有的性能。在HANA里的函数库中,APRIORI算法和K-means算法对在使用HANA模型下的数据做出具体的分析和销售的方案。本文对中石化企业级数据仓库(EDW)的建设进行了简单的介绍,重点介绍了基于Sap Hana内存计算的大规模数据分析中使用的方法及实现过程。过程中主要用到了HANA的内存计算技术,算法上主要使用了聚类分析(K-means算法)、关联分析(Apriori算法),开发语言为HANA提供的SQLScript语言。
【关键词】:SAP ERP HANA 内存计算 K-means算法 Apriori算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-5
- Abstract5-10
- 第一章 绪论10-14
- 1.1 选题背景10
- 1.2 主要研究内容10-11
- 1.3 数据分析的意义11-12
- 1.4 本文组织结构12-14
- 第二章 HANA的应用背景及数据抽取14-19
- 2.1 SAP HANA概述14-16
- 2.2 系统架构及数据流16-18
- 2.3 本章小结18-19
- 第三章 HANA总体架构及内存计算19-32
- 3.1 HANA数据的存储方式19-24
- 3.1.1 现代化硬件对数据库系统架构的影响19-20
- 3.1.2 基于列式和行式的存储20-21
- 3.1.3 列式表的优势21-24
- 3.2 HANA架构概览24-26
- 3.3 SAP HANA数据库架构26-30
- 3.3.1 表、视图和星型架构26-27
- 3.3.2 SAP HANA模型视图27-28
- 3.3.3 SAP HANA视图处理28-30
- 3.4 内存计算30-31
- 3.5 本章小结31-32
- 第四章 基于SAP HANA的大数据分析与系统实现32-55
- 4.1 系统架构32-33
- 4.2 内存计算与HANA的关系33
- 4.3 HANA建模33-35
- 4.3.1 数据建模34
- 4.3.2 创建主数据属性视图34-35
- 4.3.3 创建销售明细分析视图35
- 4.4 关联分析(APRIORI)算法35-41
- 4.4.1 创建临时表类型37-38
- 4.4.2 创建关联分析存储过程38-39
- 4.4.3 前台页面开发39-40
- 4.4.4 关联分析在HANA中执行效率40-41
- 4.5 聚类分析(K-meams)算法41-45
- 4.5.1 聚类算法K-means简介41
- 4.5.2 聚类分析实现41-45
- 4.6 基于HANA模型的大数据分析45-54
- 4.7 本章小结54-55
- 第五章 HANA系统性能测试55-59
- 5.1 测试步骤55-57
- 5.2 测试结果57-58
- 5.3 本章小结58-59
- 第六章 总结与展望59-60
- 6.1 文章总结59
- 6.2 展望59-60
- 参考文献60-63
- 个人简介63-64
- 后记和致谢64
【参考文献】
中国期刊全文数据库 前10条
1 王琼;曹奎;;关联规则挖掘Apriori算法的改进[J];福建电脑;2012年12期
2 潘明惠;;内存计算技术验证项目与应用研究[J];电力信息化;2012年10期
3 饶正婵;范年柏;;关联规则挖掘Apriori算法研究综述[J];计算机时代;2012年09期
4 李超;张明博;邢春晓;胡劲松;;列存储数据库关键技术综述[J];计算机科学;2010年12期
5 王珊;肖艳芹;刘大为;覃雄派;;内存数据库关键技术研究[J];计算机应用;2007年10期
6 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期
7 金微;陈慧萍;;基于分层聚类的k-means算法[J];河海大学常州分校学报;2007年01期
8 曾舸;刘先锋;;关联规则挖掘中Apriori改进算法的研究[J];计算机与现代化;2007年01期
9 秦锋,杨学兵;一种基于APRIORI性质的多维关联规则挖掘算法的研究[J];安徽工业大学学报(自然科学版);2003年02期
10 夏幼明,解敏,周雯;数据挖掘方法分析与评价[J];云南师范大学学报(自然科学版);2003年02期
中国博士学位论文全文数据库 前1条
1 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前7条
1 朱靖翔;基于内存计算的钢铁价格预测算法研究[D];东华大学;2015年
2 庄辰弘;基于SAP HANA的内存数据库应用研究[D];上海交通大学;2013年
3 朱卿;基于HANA计算的营销统计分析系统[D];复旦大学;2013年
4 吴嘉乐;基于HANA数据库的客户盈亏分析系统设计[D];复旦大学;2013年
5 刘江沙;基于内存计算技术的企业海量财务数据实时分析[D];复旦大学;2013年
6 兰天;关联规则数据挖掘方法的研究与实现[D];西安科技大学;2008年
7 冯超;K-means聚类算法的研究[D];大连理工大学;2007年
,本文编号:669093
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/669093.html