基于Spark的电网大数据统计中等值连接问题的优化及其应用
本文关键词:基于Spark的电网大数据统计中等值连接问题的优化及其应用,由笔耕文化传播整理发布。
【摘要】:随着互联网技术飞速发展,在电子商务、科学研究、社交平台等诸多领域,数据规模、数据种类正在极速增长,大数据的时代已然来临。在电网领域,随着物联网的发展,传感器的大量应用,监控采集到的数据也越来越庞大。由于数据规模大,数据类型多,数据处理时效性高,传统的数据处理技术无法满足技术要求。针对电网大数据的统计分析,急需大数据技术的支持。Spark是一个新兴、高效的大数据计算框架,它提供有丰富的组件及API,支持流式数据的处理、图计算、机器学习及SQL查询。在电网大数据的统计分析中,涉及大表之间的关联操作。Spark中采用join操作对两表进行关联,关联过程中会有大量不符合条件的数据与Shuffle操作,导致join的效率不高。本文针对Spark中join操作的低效问题和电网大数据统计分析的实际应用问题,首先,提出一种基于BloomFilter过滤再分区的算法,通过这种方式预先过滤掉大部分不符合条件的连接数据,然后针对数据倾斜的问题进行再分区,充分发挥各节点的计算资源,最大程序上优化join过程,从而提高程序的整体效率。最后,本文在国家电网重庆供电公司调控中心的统计业务需求背景下,结合Spark及Spark SQL提出了一个电网数据处理模型,通过与J2EE Web技术整合,实现了电网数据的采集、计算分析和展示。
【关键词】:Spark Spark SQL 等值连接 电网 大数据
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TM76;TP311.13
【目录】:
- 中文摘要3-4
- 英文摘要4-7
- 1 绪论7-14
- 1.1 研究背景与意义7-9
- 1.1.1 大数据产生背景7
- 1.1.2 大数据概念和特征7-8
- 1.1.3 大数据在智能电网调度中的应用8-9
- 1.1.4 研究意义9
- 1.2 国内外研究现状9-12
- 1.3 本文的主要内容12-13
- 1.4 本文结构安排13
- 1.5 本章小结13-14
- 2 基础理论及关键技术14-30
- 2.1 主流的大数据计算框架14-15
- 2.2 SPARK介绍15-23
- 2.2.1 Spark核心概念16-18
- 2.2.2 Spark的基本工作流程18
- 2.2.3 Spark任务调度18-20
- 2.2.4 Spark生态系统20-21
- 2.2.5 Spark部署方式21-23
- 2.3 SPARK SQL23-26
- 2.3.1 Spark SQL的运行构架24-25
- 2.3.2 Join实例示例25-26
- 2.4 SPARK分区的相关理论26-29
- 2.4.1 Shuffle分析26-27
- 2.4.2 BloomFilter27-28
- 2.4.3 一致性哈希思想28
- 2.4.4 水塘抽样算法28-29
- 2.5 本章小结29-30
- 3 过滤再分区的大表等值连接算法30-43
- 3.1 问题背景30-31
- 3.2 SPARK分区31-32
- 3.2.1 Spark分区器31
- 3.2.2 业务数据的自定义分区31-32
- 3.3 过滤再分区算法设计32-35
- 3.3.1 过滤算法描述32-34
- 3.3.2 分区策略描述34-35
- 3.4 过滤再分区算法分析35-36
- 3.5 实验及其结果分析36-42
- 3.6 本章小结42-43
- 4 基于SPARK的国家电网统计模型设计与应用43-53
- 4.1 智能电网调度数据中心系统结构43-45
- 4.2 基于SPARK的电网统计架构设计45-47
- 4.2.1 电网数据的处理过程46
- 4.2.2 电网数据的存储设计46-47
- 4.3 电网调度数据计算设计47-50
- 4.3.1 电网调度数据的过滤48-49
- 4.3.2 电网调度数据的分区49-50
- 4.4 电网调度中心统计报表模块中的应用50-51
- 4.5 SPARK集群性能优化51-52
- 4.6 本章小结52-53
- 5 总结与展望53-55
- 5.1 本文总结53
- 5.2 展望53-55
- 致谢55-56
- 参考文献56-59
- 附录 A. 作者在攻读学位期间取得的科研成果目录:59
【相似文献】
中国期刊全文数据库 前10条
1 Xin Lu;Bo Sun;Teng-fei Zhao;Lu-ning Wang;Cheng-cheng Liu;Xuan-hui Qu;;Microstructure and mechanical properties of spark plasma sintered Ti Mo alloys for dental applications[J];International Journal of Minerals Metallurgy and Materials;2014年05期
2 朱教群,梅炳初,何利萍,陈艳林;Synthesis of Ti_3SiC_2 by spark plasma sintering(SPS) of elemental powders[J];Transactions of Nonferrous Metals Society of China;2003年01期
3 彭道修;雪佛兰SPARK安全气囊电控原理和故障检修[J];汽车维修与保养;2004年09期
4 许剑光;张厚安;江国健;张宝林;李文兰;;SiC whisker reinforced MoSi_2 composite prepared by spark plasma sintering from COSHS-ed powder[J];Transactions of Nonferrous Metals Society of China;2006年S2期
5 李刚;;Review of Determination of Minimum Ignition Energy of Combustible Gases or Dusts[J];Journal of Measurement Science and Instrumentation;2011年03期
6 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
7 Bülent 銉ZDALYAN;Oguzhan DOGAN;;Effect of a semi electro-mechanical engine valve on performance and emissions in a single cylinder spark ignited engine[J];Journal of Zhejiang University-Science A(Applied Physics & Engineering);2012年08期
8 ;Characterization and wear behavior of WC-0.8Co coating on cast steel rolls by electro-spark deposition[J];International Journal of Minerals Metallurgy and Materials;2009年06期
9 N.Saheb;A.S.Hakeem;A.Khalil;N.Al-Aqeeli;T.Laoui;;Synthesis and spark plasma sintering of Al-Mg-Zr alloys[J];Journal of Central South University;2013年01期
10 ;激扬时尚活力——雪佛兰SPARK[J];汽车维修;2003年10期
中国重要会议论文全文数据库 前4条
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五届全国等离子体科学技术会议会议摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二届贵州省自然科学优秀学术论文评选获奖论文集(2007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中国生理学会第23届全国会员代表大会暨生理学学术大会论文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中国材料大会2012第14分会场:先进陶瓷材料论文集[C];2012年
中国重要报纸全文数据库 前8条
1 杨娜;雪佛兰SPARK诠释微车[N];中国工业报;2003年
2 ;雪佛兰SPARK技术参数表[N];中国商报;2003年
3 若冰;雪佛兰Spark小车中的精灵[N];中国商报;2003年
4 记者 姬旺芳;天水星火SPARK商标获“中国驰名商标”[N];天水日报;2010年
5 记者 晓瑗;新西兰电信将更名为Spark[N];人民邮电;2014年
6 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
7 ;上汽通用五菱SPARK引发微车新热浪[N];中国质量报;2003年
8 黄静洁;08款SPARK乐驰上市 能否突围微轿市场?[N];东方早报;2008年
中国硕士学位论文全文数据库 前10条
1 王韬;基于Spark的聚类集成系统研究与设计[D];西南交通大学;2015年
2 陈晓康;基于Spark 云计算平台的改进K近邻算法研究[D];广东工业大学;2016年
3 牟善文;美国SPARK课程模式小学生体育课能量代谢特点及干预实验研究[D];首都体育学院;2016年
4 李争献;基于Spark的移动终端信息推送系统的设计与实现[D];华南理工大学;2016年
5 赵洋;基于spark的网络广告交易计费系统的设计与实现[D];哈尔滨工业大学;2016年
6 尚勃;Spark平台下基于深度学习的网络短文本情感分类研究[D];西安建筑科技大学;2016年
7 王海华;Spark数据处理平台中内存数据空间管理技术研究[D];北京工业大学;2016年
8 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年
9 王国鹏;上海市体育与健身课程与美国SPARK课程的比较研究[D];华东师范大学;2011年
10 翁炀晖;SPARK课程在高校乒乓球公选课中的应用研究[D];成都体育学院;2012年
本文关键词:基于Spark的电网大数据统计中等值连接问题的优化及其应用,,由笔耕文化传播整理发布。
本文编号:506121
本文链接:https://www.wllwen.com/kejilunwen/dianlidianqilunwen/506121.html