当前位置:主页 > 科技论文 > 软件论文 >

数据服务化系统的设计与实现

发布时间:2020-11-13 05:32
   随着移动互联网的发展和普及,越来越多用户选择网约车服务作为出行的首选,互联网企业也因此收集了海量的数据。用户在享受移动出行服务中产生的数据被存储在数据仓库中,用以支持分析和决策,然而基于Hive的数据仓库存在查询速度慢、操作复杂、元数据和指标意义不清晰、数据质量无法保证等问题。数据服务化系统为了让数据更好的为用户服务,让用户更好的使用已构建好的数据仓库,提供以下服务:利用HBase查询速度快但是不支持复杂Join的特点,提供实时查询数据集市中数据进行联机分析处理(Online Analytical Processing,OLAP)服务,解决用户使用Hive查询速度慢的问题;数据仓库元数据和指标查询,让用户不必为报表中的指标和元数据意义不明确而困扰。同时,由于数据仓库中数据需要业务人员基于业务数据进行二次开发,本系统为数据仓库业务人员提供以下服务功能:保证数据质量,维护数据的一致性和准确性;元数据的创建和维护;HBase中数据立方体的构建,实时查询用于支持OLAP。保证数据仓库业务人员在日常工作中顺利的产出数据。按照需求分析和功能划分,系统共有元数据中心、指标字典、数据服务化配置中心、报表系统四个模块。系统采用四层架构模型降低了系统各模块之间的耦合度,采用My SQ作为业务数据库和HBase作为No SQL数据库,并最终根据测试结果和用户反馈不断进行迭代优化。数据服务化系统已在企业内上线运行,帮助普通用户解决日常工作中使用数据仓库遇到的问题,帮助数据仓库业务人员更高效的进行数据开发,保证数据质量,让数据可以更好的为用户服务。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.52
【部分图文】:

物理模型图,数据立方体,次方


图 1-1 数据立方体物理模型图Cube 构建采用的传统算法是逐层算法[34],已知一个 N 维的 Cube 可以组合出 的 N 次方个 cuboid,也就是 2 的 N 次方个子 Cube,其中包括 1 个 N 维的子 CubeN 个(N-1)维的子 Cube,N*(N-1)/2 个(N-2)维子 Cube…N 个 1 维的子 Cube, 1 个

算法模型,逐层


图 1-2 逐层算法模型图Kylin 中采用的另一个 Cube 构建算法是快速 Cube 算法,如图 1-3 所示快速 Cube算法的主要思想是将给 map 任务分配的所有的数据块,都视为一个小的 Cube 进行计算,其中包括全部的 Cuboid;每个小的 Cube 计算完成后将计算结果输入给 Reduce

模型图,模型图,算法模型,使用数据


快速Cube算法模型图
【参考文献】

相关期刊论文 前10条

1 孔晓华;;OLAP技术在进口图书数据分析中的应用研究[J];电子科学技术;2015年04期

2 任磊;杜一;马帅;张小龙;戴国忠;;大数据可视分析综述[J];软件学报;2014年09期

3 宋杰;郭朝鹏;王智;张一川;于戈;Jean-Marc PIERSON;;大数据分析的分布式MOLAP技术[J];软件学报;2014年04期

4 董新华;李瑞轩;周湾湾;王聪;薛正元;廖东杰;;Hadoop系统性能优化与功能增强综述[J];计算机研究与发展;2013年S2期

5 孟小峰;李勇;祝建华;;社会计算:大数据时代的机遇与挑战[J];计算机研究与发展;2013年12期

6 刘师语;周渊平;杜江;;基于HADOOP分布式系统的数据处理分析[J];通信技术;2013年09期

7 李玉林;董晶;;基于Hadoop的MapReduce模型的研究与改进[J];计算机工程与设计;2012年08期

8 郝树魁;;Hadoop HDFS和MapReduce架构浅析[J];邮电设计技术;2012年07期

9 崔杰;李陶深;兰红星;;基于Hadoop的海量数据存储平台设计与开发[J];计算机研究与发展;2012年S1期

10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期



本文编号:2881804

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2881804.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15fde***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com