基于Spark的DSP数据仓库优化的研究与实现
本文选题:数据仓库 + Spark ; 参考:《吉林大学》2017年硕士论文
【摘要】:现如今,当代社会是计算机信息科技技术高速发展的现代社会。各行业伴随着“互联网+”这个风潮迅速发展,产生了大量不同领域的互联网数据。企业运营产生数据,数据仓库依据数据为企业各级别的决策提供策略,企业的发展与数据的关系越发紧密,所以我们迫切的需要寻求一种新的大数据处理优化方法和技术支撑企业的发展。现在比较流行的大数据计算框架是Hadoop和Spark,大部分公司学习并采用该技术能够满足自身业务的需要。在这种情况下,本文针对DSP(Demand-Side Platform)需求方广告投放行业提出了基于Spark的数据仓库优化的研究设计。通过对数据仓库的各个流程进行严格分析,为使整体数据处理流程效率提高,分别选择从框架流程、数据存储、数据处理三方面进行全方位递进式优化。在数据仓库的框架中,当数据从数据源传送到Hadoop的Spark的过程中,选择加入高吞吐量分布式的发布订阅消息系统即Kafka,进而可以实现快速统一线上和离线的消息。对于数据存储速度慢的问题,Spark Streaming从HBase和HDFS(Hadoop Distributed File System)组合的开源数据库中读写数据,采用分区连接的方式可以加快数据存取的速度。而针对数据倾斜现象的数据处理阶段,采用抽样聚合算法的方案,能够较好的解决数据大小分配不一致导致的极大任务拖慢整个任务完成进度的现象。经过实验数据的测试比较,针对普通数据即非倾斜数据,数据仓库优化方案花费的时间整体比传统的数据仓库操作过程减少10%以上,同时提高了系统的吞吐率和存储性能。针对倾斜数据,本文提出的抽样聚合算法在保证数据处理结果准确的情况下,能够较快地聚合数据,进而较好地提高整体的数据仓库执行效率。
[Abstract]:Nowadays, the contemporary society is a modern society with the rapid development of computer information technology. With the rapid development of the Internet, various industries have produced a large number of Internet data in different fields. Enterprise operation produces data, and data warehouse provides strategy for enterprise decision-making according to data. The development of enterprise is more and more closely related to data. Therefore, we urgently need to seek a new big data processing optimization method and technology to support the development of enterprises. The popular big data computing frameworks are Hadoop and Spark.Most companies learn and adopt this technology to meet their business needs. In this case, this paper puts forward the research and design of data warehouse optimization based on Spark for the demand side advertising industry of DSP(Demand-Side platform. Through the strict analysis of each flow of data warehouse, in order to improve the efficiency of the whole data processing process, we select three aspects of frame flow, data storage, data processing to carry on the omni-directional progressive optimization. In the framework of data warehouse, when the data is transferred from the data source to the Spark of Hadoop, we choose to join the high throughput distributed publish / subscribe message system (Kafka), which can realize the fast unification of online and offline messages. To solve the problem of slow data storage, Spark Streaming can read and write data from an open source database combined with HBase and HDFS(Hadoop Distributed File System). Using partitioned connection can accelerate the speed of data access. In the data processing phase of data skew phenomenon, the scheme of sampling aggregation algorithm can solve the problem that the maximum task caused by the inconsistency of data size can slow down the completion of the whole task. Through the test and comparison of the experimental data, the time spent by the data warehouse optimization scheme is reduced by more than 10% compared with the traditional data warehouse operation process, and the throughput and storage performance of the system are improved. For tilted data, the sampling aggregation algorithm proposed in this paper can aggregate data quickly and improve the efficiency of data warehouse execution under the condition that the data processing results are accurate.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【参考文献】
相关期刊论文 前10条
1 王韬;杨燕;滕飞;冯晨菲;;基于RDDs的分布式聚类集成算法[J];小型微型计算机系统;2016年07期
2 刘晶;李琳;李石君;;基于社交网络大规模行为数据的用户关系研究[J];计算机应用与软件;2016年07期
3 滑涛;;浅论计算机与移动互联网技术的发展[J];科技经济导刊;2016年14期
4 陈晓;朱志祥;梁小江;;Spark Streaming写入HBase的实现和优化[J];物联网技术;2016年04期
5 熊安萍;熊风波;;基于HBase的小文件高效存储方法[J];重庆邮电大学学报(自然科学版);2016年01期
6 王岩;王纯;;一种基于Kafka的可靠的Consumer的设计方案[J];软件;2016年01期
7 张叶;许国艳;花青;;基于HBase的矢量空间数据存储与访问优化[J];计算机应用;2015年11期
8 薛瑞;朱晓民;;基于Spark Streaming的实时日志处理平台设计与实现[J];电信工程技术与标准化;2015年09期
9 郭敏杰;;大数据和云计算平台应用研究[J];现代电信科技;2014年08期
10 顾荣;严金双;杨晓亮;袁春风;黄宜华;;Hadoop MapReduce短作业执行性能优化[J];计算机研究与发展;2014年06期
相关硕士学位论文 前10条
1 唐云;基于Spark的大规模分布式矩阵运算算法研究与实现[D];南京大学;2016年
2 吴雯祺;Spark性能数据收集分析系统的设计与实现[D];哈尔滨工业大学;2015年
3 李文栋;基于Spark的大数据挖掘技术的研究与实现[D];山东大学;2015年
4 徐升;基于淘宝平台的竞价广告自动投放系统设计与实现[D];电子科技大学;2015年
5 张建平;基于Hadoop与Mahout推荐技术的研究与实现[D];西安电子科技大学;2014年
6 梁彦;基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D];中山大学;2014年
7 李娇龙;基于Hadoop的云计算应用研究[D];电子科技大学;2014年
8 黄晓云;基于HDFS的云存储服务系统研究[D];大连海事大学;2010年
9 陈艳羽;数据仓库技术在吉林省通信公司社区综合营销系统中的应用[D];东北师范大学;2008年
10 岑琴;商业智能BI在劳动密集型企业产品营销中的应用研究[D];浙江师范大学;2007年
,本文编号:1944128
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1944128.html