基于Sap Hana内存计算的大规模数据分析系统的设计与实现

发布时间：2017-08-13 21:44

本文关键词：基于Sap Hana内存计算的大规模数据分析系统的设计与实现

【摘要】：在大数据时代,企业所掌握的信息已经成为其最为主要的竞争力来源。如何通过大数据分析技术对掌握的信息进行有效的管理和分析,从中挖掘价值,已经成为现代企业从信息主管到CIO最为关注的话题。中国石油化工集团公司业(以下简称中石化)作为全球最大的企业之一,业务领域涵盖整个石化行业的全部生态链,包含多条产品线的覆盖全国乃至全球的产销渠道体系。按照中石化信息部的规划要求,积极实施和推动企业级数据仓库(EDW)建设。构建了EDW+BW架构来支撑企业的分析需求和报表需求。帮助企业管理者及时掌握企业运行状况。各企业业务部门依托此系统出具日报、月报,并进行分析和监控。而伴随着近几年中石化业务的不断扩大、信息技术的提高以及企业对信息化建设力度的加大,ERP系统及其他外围信息系统的建设,企业产生的数据量成爆炸式增长。BW系统业务及财务报表系统数据量快速增长。截止2015年初EDW的数据量已经超过30T,数据增长的速度还在逐年加快。与此同时企业业务需求水平不断提高,现有的EDW+BW模式不能完全的满足各部门对系统性能、计算能力、响应速度提出的高要求,中石化开始尝试SAP HANA系统在销售板块的应用。近年来,计算机体系结构已经发生变化。现在多核处理器已成为标准,随着处理器内核之间的快速通信而实现的并行处理,而SAP HANA是由SAP推出的最新技术。其核心利用创新型的内存技术来存储数据,特别适合处理数据量非常大的表格型或关系型的数据,具有前所未有的性能。在HANA里的函数库中,APRIORI算法和K-means算法对在使用HANA模型下的数据做出具体的分析和销售的方案。本文对中石化企业级数据仓库(EDW)的建设进行了简单的介绍,重点介绍了基于Sap Hana内存计算的大规模数据分析中使用的方法及实现过程。过程中主要用到了HANA的内存计算技术,算法上主要使用了聚类分析(K-means算法)、关联分析(Apriori算法),开发语言为HANA提供的SQLScript语言。
【关键词】：SAP ERP HANA 内存计算 K-means算法 Apriori算法
【学位授予单位】：吉林大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP311.13
【目录】：

摘要4-5
Abstract5-10
第一章绪论10-14
1.1 选题背景10
1.2 主要研究内容10-11
1.3 数据分析的意义11-12
1.4 本文组织结构12-14
第二章 HANA的应用背景及数据抽取14-19
2.1 SAP HANA概述14-16
2.2 系统架构及数据流16-18
2.3 本章小结18-19
第三章 HANA总体架构及内存计算19-32
3.1 HANA数据的存储方式19-24
3.1.1 现代化硬件对数据库系统架构的影响19-20
3.1.2 基于列式和行式的存储20-21
3.1.3 列式表的优势21-24
3.2 HANA架构概览24-26
3.3 SAP HANA数据库架构26-30
3.3.1 表、视图和星型架构26-27
3.3.2 SAP HANA模型视图27-28
3.3.3 SAP HANA视图处理28-30
3.4 内存计算30-31
3.5 本章小结31-32
第四章基于SAP HANA的大数据分析与系统实现32-55
4.1 系统架构32-33
4.2 内存计算与HANA的关系33
4.3 HANA建模33-35
4.3.1 数据建模34
4.3.2 创建主数据属性视图34-35
4.3.3 创建销售明细分析视图35
4.4 关联分析（APRIORI）算法35-41
4.4.1 创建临时表类型37-38
4.4.2 创建关联分析存储过程38-39
4.4.3 前台页面开发39-40
4.4.4 关联分析在HANA中执行效率40-41
4.5 聚类分析（K-meams）算法41-45
4.5.1 聚类算法K-means简介41
4.5.2 聚类分析实现41-45
4.6 基于HANA模型的大数据分析45-54
4.7 本章小结54-55
第五章 HANA系统性能测试55-59
5.1 测试步骤55-57
5.2 测试结果57-58
5.3 本章小结58-59
第六章总结与展望59-60
6.1 文章总结59
6.2 展望59-60
参考文献60-63
个人简介63-64
后记和致谢64

【参考文献】

中国期刊全文数据库前10条

1 王琼;曹奎;;关联规则挖掘Apriori算法的改进[J];福建电脑;2012年12期

2 潘明惠;;内存计算技术验证项目与应用研究[J];电力信息化;2012年10期

3 饶正婵;范年柏;;关联规则挖掘Apriori算法研究综述[J];计算机时代;2012年09期

4 李超;张明博;邢春晓;胡劲松;;列存储数据库关键技术综述[J];计算机科学;2010年12期

5 王珊;肖艳芹;刘大为;覃雄派;;内存数据库关键技术研究[J];计算机应用;2007年10期

6 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期

7 金微;陈慧萍;;基于分层聚类的k-means算法[J];河海大学常州分校学报;2007年01期

8 曾舸;刘先锋;;关联规则挖掘中Apriori改进算法的研究[J];计算机与现代化;2007年01期

9 秦锋,杨学兵;一种基于APRIORI性质的多维关联规则挖掘算法的研究[J];安徽工业大学学报(自然科学版);2003年02期

10 夏幼明,解敏,周雯;数据挖掘方法分析与评价[J];云南师范大学学报(自然科学版);2003年02期

中国博士学位论文全文数据库前1条

1 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年

中国硕士学位论文全文数据库前7条

1 朱靖翔;基于内存计算的钢铁价格预测算法研究[D];东华大学;2015年

2 庄辰弘;基于SAP HANA的内存数据库应用研究[D];上海交通大学;2013年

3 朱卿;基于HANA计算的营销统计分析系统[D];复旦大学;2013年

4 吴嘉乐;基于HANA数据库的客户盈亏分析系统设计[D];复旦大学;2013年

5 刘江沙;基于内存计算技术的企业海量财务数据实时分析[D];复旦大学;2013年

6 兰天;关联规则数据挖掘方法的研究与实现[D];西安科技大学;2008年

7 冯超;K-means聚类算法的研究[D];大连理工大学;2007年

，

本文编号：669093

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/669093.html

上一篇：利用面向对象的软件工程定制仪器
下一篇：支持移动终端的出版物阅读服务系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|