时间序列流数据的建模预测和异常检测方法研究

发布时间:2020-12-11 19:33
  时间序列是按照时间顺序采集到的某观测变量的数据集合,广泛地存在于金融、电力负荷和过程控制等领域中。时间序列在流数据环境下呈现出海量无限、单遍扫描、实时到达和伴有噪声的特点。通过实时建模的方式挖掘出时间序列流数据的运行规律,并在建模预测的基础上分析出隐藏于数据中的异常模式,可以对实际的生产、生活产生更加积极的影响。针对现有大多数静态、离线的时间序列建模预测算法不能在流数据环境下进行实时分析的问题,本文就时间序列流数据的建模预测中如何选择训练样本,满足实时性要求的同时提高模型的预测准确性等问题,设计了一种基于GEP算法,并加入双重滑动窗口、群体爬山算法和数据融合方法来实现对时间序列流数据进行实时建模预测的算法。以4组加入不同程度高斯噪声的数据集作为测试数据集,将本文算法和HTM算法在同等数据传输间隔的实时性要求下对测试数据集的预测结果进行实验对比。用平均相对百分比误差(MAPE)值作为评判算法预测准确性的指标。实验结果显示本文算法在4组数据集上的整体MAPE值均低于HTM算法,表明了本文算法比HTM算法拥有更高的预测准确性。鉴于现有的大多数时间序列异常检测算法用于批量处理数据,不能直接应用... 

【文章来源】:西安理工大学陕西省

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

时间序列流数据的建模预测和异常检测方法研究


某患者心电图数据[16]

基因,表达式,长度,尾部


随机生成,尾部是由终结集中的字符随机生成,头部长度由所求解的问题根据经验而定,而尾部的长度则由式(2-1)决定,设头部长度为,尾部长度为,则=(1)+1(2-1)其中代表符号集的符号所需的最大参数个数,即=2。如果给定头部长度=7,则此基因的尾部长度=7(21)+1=8,则此基因个体的总长度为15,有以下基因编码:+2122212(2-2)其中S代表函数符号,此基因个体的有效部分长度为6,其前六位所对应的表达式为=2sin(x)+x,其余部分为根据编码规则随机填充的冗余部分,这部分不体现在基因的表达中。此基因个体对应的表达式树如图2-2:图2-2此基因个体对应的表达式树Fig.2-2Theexpressiontreecorrespondingtothisgeneindividual

示意图,滑动窗口,示意图,数据


第3章时间序列流数据的建模预测和异常检测方法21的数据能反映流数据当前的最新规律。={1,2,3…}(3-1)式(3-1)中,为一个时间序列流,为时刻收集到的数据点,是一个维向量,∈,当=1,此为单变量时间序列流。设此滑动窗口的宽度为,则此滑动窗口在时间序列流上划分样本数据的方式如图3-1所示。图3-1滑动窗口示意图Fig.3-1Schematicdiagramofslidingwindow图3-1中,虚线框内的数据为1时刻滑动窗口中的从到1的个数据,实线框内的数据为当前时刻滑动窗口包含的从+1到的个数据。当前在对时间序列流数据的分析中,通用的实时处理时间序列流数据的方法主要都是基于最新的时间窗口内数据构建一个模型,然后对这个模型进行实时更新。滑动窗口的宽度是算法中是比较重要的参数,一般情况下,的值在算法运行过程中为预先设置的值并保持固定不变。我们也可以通过一些先验知识估计值,但上述方法过于含糊,而且在很多场景中,我们并不可能预先知道流数据的分布变化规律,并以此为作为根据来设置最优的值。流数据的分布动态变化的特性使得最优值也变得不固定。因此在具体应用中,我们应设置的动态值。文献[65,66]分别在滑动窗口的基础上提出了不同的改进办法,并且提高了对流数据处理的效率,但是这些改进方法都严重地占用了终端算法过多的时空资源,从而限制了算法的应用和发展。文献[67]设计了一种用两个固定的滑动时间窗口分别对窗口中的数据进行更新和处理的嵌套滑动窗口模型,由于这两个窗口的相对位置和宽度不能随着数据处理的需要发生改变,使得其丧失了灵活性。鉴于这种情况,文献[68]基于历史数据先选择一个介于比较小的值和一个比较大的值之间的中间值值。再基于在线学习方式,对流数据的分布进行在线学习,以


本文编号:2911100

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2911100.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae4e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com