云产品数据多维分析系统的设计与实现

发布时间:2018-03-16 03:03

  本文选题:多维分析 切入点:联机分析处理 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文


【摘要】:近年来随着云计算行业的快速发展,以云服务为主营业务的互联网公司也得到了快速的成长。目前笔者所在公司已有近13条云产品业务线,而各业务线每天会产生庞大且分散的业务数据,其中日志数据已达到了 PB级别。如何对各云产品进行统一的业务分析,及时发现各产品线运营中存在的问题和预测市场需求的变化趋势,是公司目前所面临的难题。针对这一问题,本文旨在接入各产品线业务数据搭建一个统一的、快速响应的云产品数据报表平台,提供多维度深层次的报表查询、数据统计、数据分析、数据预测等功能。在云产品数据多维分析系统的构建过程中,首先,笔者完成了数据主题与数据维度的统计分析,并且参与了多维分析系统的界面原型设计。其次,笔者参与了联机分析处理OLAP(On-line Analytical Processing)引擎调研和日志处理方案的设计工作。然后,在系统设计与实现阶段,笔者独立设计实现了多维分析子系统、Trainer 子系统和日志转 ORC(Optimized Row Column File)子系统中的 CDN(Content Delivery Network)点播日志处理与视频直播日志处理,并完成了数据模型与Cube的创建工作。在测试阶段,笔者独立完成了所负责相关子系统的功能测试。本文所设计的数据多维分析系统基于Apache Kylin的OLAP引擎进行构建,采用预计算的方式预先计算Cube立方体从而实现高响应的数据多维分析。多维分析子系统根据复杂的业务逻辑动态的构建SQL,并对查询后的数据进一步加工处理从而更有效的帮助决策。Trainer子系统负责数据的定期同步以及Cube的自动构建,为多维分析子系统提供数据支撑,并保证数据的一致性。日志转ORC子系统负责对各产品线的日志数据进行ETL(Extract-Transform-Load)处理,该子系统采用SparkSQL对日志数据进行并行计算,极大提高了处理速度,并采用更加高效的压缩格式ORC来存储处理后的数据,提高了后续的数据处理性能。目前,该云产品数据多维分析系统完成了一期的开发与测试工作,并且正处于试运行阶段,各系统的功能运行稳定,达到了预期目标。
[Abstract]:With the rapid development of cloud computing industry in recent years, Internet companies with cloud service as their main business have also been growing rapidly. And every business line produces huge and scattered business data every day, in which log data have reached PB level. It is a difficult problem for the company to find out in time the problems existing in the operation of each product line and to predict the changing trend of market demand. In view of this problem, the purpose of this paper is to access the business data of each product line and build a unified one. The rapid response cloud product data report platform, provides the multi-dimensional deep level report query, the data statistics, the data analysis, the data forecast and so on function. In the cloud product data multidimensional analysis system construction process, first, The author has completed the statistical analysis of the data subject and data dimension, and participated in the design of the interface prototype of the multidimensional analysis system. Secondly, the author has participated in the design of the on-line analytical processing OLAP(On-line Analytical processing engine investigation and log processing scheme. In the stage of system design and implementation, the author designs and implements the CDN(Content Delivery Network) log processing and live video log processing in the multidimensional analysis subsystem and the CDN(Content Delivery network network subsystem. In the testing stage, the author independently completed the functional testing of the related subsystems. The data multidimensional analysis system designed in this paper is based on the OLAP engine of Apache Kylin. The precomputed Cube cube is used to realize the multidimensional analysis of highly responsive data. The multidimensional analysis subsystem constructs SQL dynamically according to the complex business logic, and further processes the queried data. A more effective help decision. Trainer subsystem is responsible for the periodic synchronization of data and the automatic construction of Cube, It provides data support for multidimensional analysis subsystem and ensures consistency of data. Log to log ORC subsystem is responsible for processing log data of each product line by ETLL Extract-Transform-Load. This subsystem uses SparkSQL to compute log data in parallel. The processing speed is greatly improved, and more efficient compression format ORC is adopted to store the processed data, and the subsequent data processing performance is improved. At present, the cloud product data multidimensional analysis system has completed the first stage of development and testing. And is in the trial operation stage, each system function runs stably, has achieved the anticipated goal.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09

【相似文献】

相关期刊论文 前10条

1 丁淑芹;;应用多维分析技术进行主营业务收入审计[J];财会月刊;2008年29期

2 刘萍萍;于帆;陈雷;;多维分析在养老保险原型系统中的应用研究[J];计算机与数字工程;2008年02期

3 赵孟伟;葛迪;;多维分析技术的行业应用研究[J];中国交通信息产业;2008年07期

4 杜典熠;;基于学生评价数据立方的多维分析[J];现代计算机(专业版);2012年27期

5 殷锋,杨甲榜;对病历信息的多维分析[J];计算机应用;2002年06期

6 张宪乐;林逢升;邹会来;;基于安卓的农产品追溯查询信息的多维分析与展现[J];安徽农业科学;2013年33期

7 张涛,宋继良,徐星辉;基于MS Analysis Services多维分析系统的实现[J];哈尔滨理工大学学报;2003年03期

8 刘凤翔;蒋开颜;王国清;;多维分析技术在地税联网审计中的应用[J];审计月刊;2009年08期

9 陈立勇;殷秀叶;;电信行业多维分析模型的构建研究[J];太原大学学报;2013年03期

10 ;细算帐 Oracle Analysis Wizard有机结合动态报告研究与多维分析功能[J];每周电脑报;1998年01期

相关会议论文 前4条

1 何璐;李晋宏;范小峗;;生产数据多维分析系统模板研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

2 孟丹;王玲;;铝产品质量数据多维分析与SPC系统设计和实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

3 刘云峰;王倩宜;杨旭;欧阳荣彬;;一种支持大数据集成架构的多维分析系统[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年

4 韩英军;;深度开发信息资源的思考与实践[A];中国烟草学会2006年学术年会论文集[C];2007年

相关重要报纸文章 前3条

1 雷阳;和勤依托合作伙伴做大BI市场[N];电脑商报;2006年

2 鲁月;浪潮软件主打“一体”牌[N];计算机世界;2003年

3 NCR Teradata数据仓库事业部 富子祺;经营分析保证稳步上升的业绩[N];计算机世界;2004年

相关硕士学位论文 前10条

1 杨奇民;智能多维分析在电能质量分析评估中的应用研究[D];华北电力大学;2015年

2 郝文杰;多维分析系统-MDA4YZD的设计与实现[D];河北师范大学;2016年

3 董宸禹;单元火电机组发电过程热经济性多维分析研究[D];上海电力学院;2016年

4 董浩;基于OLAP的医院多维分析与决策支持系统[D];西安电子科技大学;2015年

5 李欣;基于大数据的钻井物料信息多维分析研究[D];西安石油大学;2016年

6 王真真;云产品数据多维分析系统的设计与实现[D];北京交通大学;2017年

7 刘新鸣;主观导向多维分析系统的设计与实现[D];华中科技大学;2009年

8 魏金强;多维分析技术在教务管理系统中的应用与研究[D];北方工业大学;2006年

9 朱济宇;一种面向中小型企业的多维分析方法的研究与实现[D];昆明理工大学;2011年

10 何璐;生产数据多维分析系统模板研究及应用[D];北方工业大学;2008年



本文编号:1618019

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1618019.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户447dd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com