当前位置:主页 > 科技论文 > 软件论文 >

基于Sap Hana内存计算的大规模数据分析系统的设计与实现

发布时间:2017-08-13 21:44

  本文关键词:基于Sap Hana内存计算的大规模数据分析系统的设计与实现


  更多相关文章: SAP ERP HANA 内存计算 K-means算法 Apriori算法


【摘要】:在大数据时代,企业所掌握的信息已经成为其最为主要的竞争力来源。如何通过大数据分析技术对掌握的信息进行有效的管理和分析,从中挖掘价值,已经成为现代企业从信息主管到CIO最为关注的话题。中国石油化工集团公司业(以下简称中石化)作为全球最大的企业之一,业务领域涵盖整个石化行业的全部生态链,包含多条产品线的覆盖全国乃至全球的产销渠道体系。按照中石化信息部的规划要求,积极实施和推动企业级数据仓库(EDW)建设。构建了EDW+BW架构来支撑企业的分析需求和报表需求。帮助企业管理者及时掌握企业运行状况。各企业业务部门依托此系统出具日报、月报,并进行分析和监控。而伴随着近几年中石化业务的不断扩大、信息技术的提高以及企业对信息化建设力度的加大,ERP系统及其他外围信息系统的建设,企业产生的数据量成爆炸式增长。BW系统业务及财务报表系统数据量快速增长。截止2015年初EDW的数据量已经超过30T,数据增长的速度还在逐年加快。与此同时企业业务需求水平不断提高,现有的EDW+BW模式不能完全的满足各部门对系统性能、计算能力、响应速度提出的高要求,中石化开始尝试SAP HANA系统在销售板块的应用。近年来,计算机体系结构已经发生变化。现在多核处理器已成为标准,随着处理器内核之间的快速通信而实现的并行处理,而SAP HANA是由SAP推出的最新技术。其核心利用创新型的内存技术来存储数据,特别适合处理数据量非常大的表格型或关系型的数据,具有前所未有的性能。在HANA里的函数库中,APRIORI算法和K-means算法对在使用HANA模型下的数据做出具体的分析和销售的方案。本文对中石化企业级数据仓库(EDW)的建设进行了简单的介绍,重点介绍了基于Sap Hana内存计算的大规模数据分析中使用的方法及实现过程。过程中主要用到了HANA的内存计算技术,算法上主要使用了聚类分析(K-means算法)、关联分析(Apriori算法),开发语言为HANA提供的SQLScript语言。
【关键词】:SAP ERP HANA 内存计算 K-means算法 Apriori算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第一章 绪论10-14
  • 1.1 选题背景10
  • 1.2 主要研究内容10-11
  • 1.3 数据分析的意义11-12
  • 1.4 本文组织结构12-14
  • 第二章 HANA的应用背景及数据抽取14-19
  • 2.1 SAP HANA概述14-16
  • 2.2 系统架构及数据流16-18
  • 2.3 本章小结18-19
  • 第三章 HANA总体架构及内存计算19-32
  • 3.1 HANA数据的存储方式19-24
  • 3.1.1 现代化硬件对数据库系统架构的影响19-20
  • 3.1.2 基于列式和行式的存储20-21
  • 3.1.3 列式表的优势21-24
  • 3.2 HANA架构概览24-26
  • 3.3 SAP HANA数据库架构26-30
  • 3.3.1 表、视图和星型架构26-27
  • 3.3.2 SAP HANA模型视图27-28
  • 3.3.3 SAP HANA视图处理28-30
  • 3.4 内存计算30-31
  • 3.5 本章小结31-32
  • 第四章 基于SAP HANA的大数据分析与系统实现32-55
  • 4.1 系统架构32-33
  • 4.2 内存计算与HANA的关系33
  • 4.3 HANA建模33-35
  • 4.3.1 数据建模34
  • 4.3.2 创建主数据属性视图34-35
  • 4.3.3 创建销售明细分析视图35
  • 4.4 关联分析(APRIORI)算法35-41
  • 4.4.1 创建临时表类型37-38
  • 4.4.2 创建关联分析存储过程38-39
  • 4.4.3 前台页面开发39-40
  • 4.4.4 关联分析在HANA中执行效率40-41
  • 4.5 聚类分析(K-meams)算法41-45
  • 4.5.1 聚类算法K-means简介41
  • 4.5.2 聚类分析实现41-45
  • 4.6 基于HANA模型的大数据分析45-54
  • 4.7 本章小结54-55
  • 第五章 HANA系统性能测试55-59
  • 5.1 测试步骤55-57
  • 5.2 测试结果57-58
  • 5.3 本章小结58-59
  • 第六章 总结与展望59-60
  • 6.1 文章总结59
  • 6.2 展望59-60
  • 参考文献60-63
  • 个人简介63-64
  • 后记和致谢64

【参考文献】

中国期刊全文数据库 前10条

1 王琼;曹奎;;关联规则挖掘Apriori算法的改进[J];福建电脑;2012年12期

2 潘明惠;;内存计算技术验证项目与应用研究[J];电力信息化;2012年10期

3 饶正婵;范年柏;;关联规则挖掘Apriori算法研究综述[J];计算机时代;2012年09期

4 李超;张明博;邢春晓;胡劲松;;列存储数据库关键技术综述[J];计算机科学;2010年12期

5 王珊;肖艳芹;刘大为;覃雄派;;内存数据库关键技术研究[J];计算机应用;2007年10期

6 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期

7 金微;陈慧萍;;基于分层聚类的k-means算法[J];河海大学常州分校学报;2007年01期

8 曾舸;刘先锋;;关联规则挖掘中Apriori改进算法的研究[J];计算机与现代化;2007年01期

9 秦锋,杨学兵;一种基于APRIORI性质的多维关联规则挖掘算法的研究[J];安徽工业大学学报(自然科学版);2003年02期

10 夏幼明,解敏,周雯;数据挖掘方法分析与评价[J];云南师范大学学报(自然科学版);2003年02期

中国博士学位论文全文数据库 前1条

1 李强;数据挖掘中关联分析算法研究[D];哈尔滨工程大学;2010年

中国硕士学位论文全文数据库 前7条

1 朱靖翔;基于内存计算的钢铁价格预测算法研究[D];东华大学;2015年

2 庄辰弘;基于SAP HANA的内存数据库应用研究[D];上海交通大学;2013年

3 朱卿;基于HANA计算的营销统计分析系统[D];复旦大学;2013年

4 吴嘉乐;基于HANA数据库的客户盈亏分析系统设计[D];复旦大学;2013年

5 刘江沙;基于内存计算技术的企业海量财务数据实时分析[D];复旦大学;2013年

6 兰天;关联规则数据挖掘方法的研究与实现[D];西安科技大学;2008年

7 冯超;K-means聚类算法的研究[D];大连理工大学;2007年



本文编号:669093

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/669093.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ebeff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com