基于Spark Streaming的分布式数据流连接优化

发布时间：2021-07-20 15:11

　　Spark Streaming是大数据环境下流处理系统中的新秀,它使用有向无环图的方式依照当前操作父子数据集间的依赖关系划分操作执行顺序。但其评价标准过于单一,对于多连接操作只能做出简单的顺序划分,无法结合各条数据流基础信息和数据流间连接关系做出针对性处理,难以找到执行效率较高的连接顺序。同时针对多条数据流连接下的窗口持续查询操作,其采用重复独立计算的方式执行,每次都要根据当前窗口下全部信息重新计算结果,相邻窗口间存在大量冗余计算,整个查询执行效率较低。针对以上问题,本文提出了基于启发式搜索的多数据流连接策略和基于时间戳的中间结果缓存策略。根据数据流集合对应的无向赋权图构建连接树,求解合适的连接顺序,再结合连接树各节点间便于数据存放的优势建立缓存机制,在相近窗口内复用中间结果,减少冗余计算量。本文主要贡献如下:1)基于启发式搜索的多数据流连接策略:通过分析关系型数据库系统和流处理系统中已有的连接技术与图的相关概念特征,将数据流之间的连接关系转化为无向连通图;根据数据流的流速为图中各点赋权,根据相关数据流间中间量的规模为图中各边赋权,分析多流连接代价构建启发函数,提出了一种基于启发式搜索...

【文章来源】：北京工业大学北京市 211工程院校

【文章页数】：69 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 研究背景
        1.1.1 大数据发展背景
        1.1.2 数据流概念及特征
        1.1.3 流处理平台概述
    1.2 数据流连接相关概念及技术
        1.2.1 连接
        1.2.2 滑动窗口
        1.2.3 时间戳
        1.2.4 发展过程
    1.3 本文主要贡献
    1.4 本文组织结构
    1.5 本章小结
第2章相关工作
    2.1 数据流连接算法
        2.1.1 传统数据库连接算法
        2.1.2 扩展连接算法
        2.1.3 分布式连接算法
    2.2 多数据流连接实现机制
        2.2.1 多连接算子
        2.2.2 连接树
        2.2.3 相互比较
    2.3 Kafka分布式消息发布订阅系统
        2.3.1 Kafka平台概述
        2.3.2 Kafka与Spark Streaming平台交互
    2.4 Spark Streaming流处理系统
        2.4.1 Spark平台概述
        2.4.2 Spark Streaming平台概述
    2.5 本章小结
第3章基于启发式搜索的多数据流连接策略
    3.1 问题描述
        3.1.1 DAG作业划分规则
        3.1.2 Spark Streaming下join算子与多连接操作
    3.2 问题分析
        3.2.1 多连接下的顺序选择
        3.2.2 启发式搜索算法选取
    3.3 模型设计
        3.3.1 无向赋权图模型设计
        3.3.2 图模型存储结构
        3.3.3 代价分析
    3.4 策略实现
        3.4.1 无向赋权图构建
        3.4.2 连接顺序选取
        3.4.3 动态重建树
    3.5 本章小结
第4章基于时间戳的中间结果缓存策略
    4.1 问题描述
        4.1.1 连接树模式缓存优势
        4.1.2 传统环境下的缓存实现
    4.2 基本思路
        4.2.1 引入时间戳标记
        4.2.2 缓存回收
    4.3 策略实现
    4.4 本章小结
第5章实验分析
    5.1 实验环境搭建及配置
    5.2 实验数据及思路
        5.2.1 Kafka数据生成规则
        5.2.2 模拟数据生成思路
    5.3 实验结果分析
    5.4 本章小结
结论
参考文献
攻读硕士学位期间所发表的学术论文
致谢

【参考文献】：
期刊论文
[1]Spark内存管理及缓存策略研究[J]. 孟红涛,余松平,刘芳,肖侬.  计算机科学. 2017(06)
[2]一种分布式消息队列研究与测试[J]. 于金良,朱志祥,李聪颖.  物联网技术. 2016(08)
[3]一种基于数据流的滑动窗口查询策略[J]. 宋晓伟,孙阳,殷守林.  现代计算机(专业版). 2016(09)
[4]流式计算在交通管理中应用研究[J]. 周建宁,徐晓东,蔡岗.  中国公共安全(学术版). 2016(01)
[5]Spark环境下基于多维布隆过滤器的星型连接算法[J]. 周国亮,萨初日拉,朱永利.  计算机应用. 2016(02)
[6]分布式流处理技术综述[J]. 崔星灿,禹晓辉,刘洋,吕朝阳.  计算机研究与发展. 2015(02)
[7]一种数据流上基于滑动窗口的点连接查询处理算法[J]. 杨仁凯,王坤朋,木伟民,王伟平.  计算机研究与发展. 2014(S1)
[8]大数据管理:概念、技术与挑战[J]. 孟小峰,慈祥.  计算机研究与发展. 2013(01)
[9]DBMS与DSMS的比较研究[J]. 姜芳艽.  微计算机信息. 2007(06)
[10]一种改进的时间片轮转调度算法[J]. 肖建明,张向利.  计算机应用. 2005(S1)

博士论文
[1]大规模实时数据流连接关键技术的研究[D]. 刘新春.中国科学技术大学 2015

硕士论文
[1]大数据流查询框架与算子算法研究[D]. 蒋晨晨.南京邮电大学 2016
[2]智能电网大数据实时流处理方法研究[D]. 杨力平.华北电力大学 2016
[3]基于Spark Streaming的试验数据处理系统的研究与实现[D]. 李天喜.西安电子科技大学 2015
[4]数据流窗口连接与相关性分析研究[D]. 王志杰.宁波大学 2012
[5]基于MapReduce的数据聚集运算算法研究与实现[D]. 高伟.东北大学 2010
[6]数据流多连接查询算法研究[D]. 程亮.南京航空航天大学 2008

本文编号：3293064

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3293064.html

上一篇：基于多评价标准融合的医疗数据特征选择算法
下一篇：创业警觉多维性、转型环境动态性与创业企业商业模式创新

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|