基于多粒度Top-k查询的流式数据事件获取方法研究
发布时间:2021-03-09 06:45
流式数据是一个随着时间的不断延伸而不断增长的动态数据的集合,其数据能够实时到达,且到达次序独立,不受各种应用型系统的控制;数据的规模宏大且不能提前知道它的最大值;数据一旦被处理,除了特意保存之外,不允许再次被取出处理,或者再次提取所花费的代价昂贵。传统的数据分析和流式数据分析处理主要在查询和处理方式上有所不同,传统数据分析处理是静态过程,当系统不繁忙时将数据批量导入数据仓库中,而流式数据是不断注入数据仓库中,这是一个流动的过程,动态的来处理数据。通过对流式数据的研究我们可以进行卫星云图的监测,对股市进行分析,判断网络攻击,煤矿灾害预测等。流式数据中事件的查询以及获取是研究流式数据各种操作的基础。现有流式数据应用系统中的事件查询只是针对流中的异常的数据点进行查询,而在实际的情况中,流式数据中的事件大多为一段连续时间下的异常,其中包含着时间、空间位置上的各种各样的信息,因此,传统阈值查询方法无法从不同时间及空间角度对事件进行全方面的分析,查询准确性非常低,导致根本无法获取事件的全部完整信息。针对这些问题,本文将基于多粒度Top-k查询的流式数据事件获取方法展开研究。首先对整个监测区域进行分...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
SOS煤矿灾害监测系统
5图 1-2 ESG 煤矿灾害监测系统上述流式数据事件的发现以及获取中的问题,本文提出了基于多粒式数据事件获取方法,针对现有流式数据事件获取只针对单一异常数
4.3 流式数据事件完整信息获取在 4.2 节查询到时间多粒度事件的峰谷点后,需要进一步获取异常数据的范围信息。根据事件异常数据极大值点,双向扩大查询结果,确定灾害数据的具体位置信息,本文提出了一种基于滑动平均值法获取异常数据的方法。4.3.1 基于滑动平均值法获取异常事件滑动平均值法,是设计一个滑动窗口,如图 4-4 所示。通过计算滑动窗口内波形峰谷点的幅值数学期望和均方差,根据正态随机变量的“3σ 规则”判断异常数据点,即对于正态随机变量来说,它的值落在区间 3σ , +3σ 内的概率为0.9974,其中 μ 和 σ 分别是随机变量的数学期望和均方差。当某异常数据点值的偏差小于均方差的 3 倍时,这个点已经不是数据极大值点,顺着极大值点双向扩大查询范围可以得到流式数据事件的起始点和终止点。由于滑动平均值法判断识别流式数据事件方法简单、易于程序实现,所以可以广泛应用于流式数据事件分析中[60-61]。
本文编号:3072439
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
SOS煤矿灾害监测系统
5图 1-2 ESG 煤矿灾害监测系统上述流式数据事件的发现以及获取中的问题,本文提出了基于多粒式数据事件获取方法,针对现有流式数据事件获取只针对单一异常数
4.3 流式数据事件完整信息获取在 4.2 节查询到时间多粒度事件的峰谷点后,需要进一步获取异常数据的范围信息。根据事件异常数据极大值点,双向扩大查询结果,确定灾害数据的具体位置信息,本文提出了一种基于滑动平均值法获取异常数据的方法。4.3.1 基于滑动平均值法获取异常事件滑动平均值法,是设计一个滑动窗口,如图 4-4 所示。通过计算滑动窗口内波形峰谷点的幅值数学期望和均方差,根据正态随机变量的“3σ 规则”判断异常数据点,即对于正态随机变量来说,它的值落在区间 3σ , +3σ 内的概率为0.9974,其中 μ 和 σ 分别是随机变量的数学期望和均方差。当某异常数据点值的偏差小于均方差的 3 倍时,这个点已经不是数据极大值点,顺着极大值点双向扩大查询范围可以得到流式数据事件的起始点和终止点。由于滑动平均值法判断识别流式数据事件方法简单、易于程序实现,所以可以广泛应用于流式数据事件分析中[60-61]。
本文编号:3072439
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3072439.html