时间序列流数据相似性搜索的研究
发布时间:2021-11-20 00:07
基于相似度的时间序列检索是一项长期研究课题,是时间序列数据挖据中的一个基础性问题也是核心问题之一。它广泛应用于金融数据分析、气象数据预测、多媒体数据检索、医疗数据异常检测等领域。本文研究的主要问题对时间序列流数据进行相似性检索,即给定查询序列,随着时间序列流数据到达,找出其上与查询序列相似的时间序列片段。该问题大致可以分为两个阶段:时间序列表示和相似性搜索。时间序列表示阶段是对原始时间序列进行降维表示,以减少后续搜索工作的时间和空间代价,且过滤噪音干扰,提高搜索效率和准确率。相似性搜索阶段是指在表示的基础上采用多种高效搜索技术,结合相似度计算,找出相似结果集。本文在分析国内外时间序列数据挖掘最新研究成果的基础上,从时间序列相似性搜索出发,研究了时间序列的分段线性表示和高效相似性搜索的关键技术等问题,主要完成了以下工作:1.本文研究并分析了分段线性近似表示和分段累积近似表示两种特征表示法,将其中具有代表性的多分辨率的重要点检索表示(MIP)法和分段累积近似表示(PAA)法中的分割部分相结合,提出了基于重要点的平均分割算法对时间序列进行分段划分。该算法相较MIP方法,时间复杂度低,计算效率...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1:分段累积近似表示PAA??
..分段累积近似表示(PAA)法和分段线性近似表示(PLR)法是时间序列基于分??段的两种经典的特征表示方法,本节分别介绍并分析了这两类方法中的代表性??方法之一,它们也是目前应用较为广泛的方法。我们重点关注其中的分割算法??部分。??1.分段累积近似表示(PAA)法??分段累积近似表示(PM)法是Eamonn?Keogh等人在^中提出的,其基本思??想为,将原始时间序列平均划分为若干段,用每一段的均值来近似表示原始序??列。近似表示的精度取决于分段的大小,分段越小,近似表示越精确。设时间??序列S=<Sl,s2,...,Sl,...,sn>,用S'表示经过PM后对时间序列S的近似表??示,则S'zCvi,?V2,...,vn>,其中m为输入参数segCount,用于设定平均分割的??分段数。假设可以整除,则每段包含r=n/ra个点,其直观表??示如图3-1所示。??
时间序列中的每个点对时间序列的形状具有不同程度的影响,该点重要性??的大小可以被认为是其对时序形状影响程度的大小。时间序列中一个点的重要??性的计算方式为:首先连接时间序列的起始点和终止点,得到一条可以近似表??示时间序列的线段,这是最低分辨率的近似表示,即用一条线段表示时间序列。??把时间序列中的数据点与该分段的竖直距离作为衡量该点重要性的依据。其中??距离最大的点即为该分段的重要点,记为时间序列的分割点之一。??下面用具体例子说明数据点的重要性计算方式。如图3-2所示,设分段的??起始点为Pi?(&,yj?,终止点为p2(x2,?y2),时间序列中的数据点Pi?(Xi,?yj?,分段??上与Pi对应的点为队(心5〇,则Pl与分段的竖直距离计算公式为:??(尺,A)=|兄-只.|=只+(兄?_?少,)x?—乂?(3<1)??A?2??图3-2中竖直距离最大的点为p3,?p3即为该分段的重要点,也是时间序列??的一个分割点。??
【参考文献】:
期刊论文
[1]边缘计算应用:传感数据异常实时检测算法[J]. 张琪,胡宇鹏,嵇存,展鹏,李学庆. 计算机研究与发展. 2018(03)
博士论文
[1]时间序列数据挖掘中的特征表示与分类方法的研究[D]. 胡宇鹏.山东大学 2018
本文编号:3506163
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1:分段累积近似表示PAA??
..分段累积近似表示(PAA)法和分段线性近似表示(PLR)法是时间序列基于分??段的两种经典的特征表示方法,本节分别介绍并分析了这两类方法中的代表性??方法之一,它们也是目前应用较为广泛的方法。我们重点关注其中的分割算法??部分。??1.分段累积近似表示(PAA)法??分段累积近似表示(PM)法是Eamonn?Keogh等人在^中提出的,其基本思??想为,将原始时间序列平均划分为若干段,用每一段的均值来近似表示原始序??列。近似表示的精度取决于分段的大小,分段越小,近似表示越精确。设时间??序列S=<Sl,s2,...,Sl,...,sn>,用S'表示经过PM后对时间序列S的近似表??示,则S'zCvi,?V2,...,vn>,其中m为输入参数segCount,用于设定平均分割的??分段数。假设可以整除,则每段包含r=n/ra个点,其直观表??示如图3-1所示。??
时间序列中的每个点对时间序列的形状具有不同程度的影响,该点重要性??的大小可以被认为是其对时序形状影响程度的大小。时间序列中一个点的重要??性的计算方式为:首先连接时间序列的起始点和终止点,得到一条可以近似表??示时间序列的线段,这是最低分辨率的近似表示,即用一条线段表示时间序列。??把时间序列中的数据点与该分段的竖直距离作为衡量该点重要性的依据。其中??距离最大的点即为该分段的重要点,记为时间序列的分割点之一。??下面用具体例子说明数据点的重要性计算方式。如图3-2所示,设分段的??起始点为Pi?(&,yj?,终止点为p2(x2,?y2),时间序列中的数据点Pi?(Xi,?yj?,分段??上与Pi对应的点为队(心5〇,则Pl与分段的竖直距离计算公式为:??(尺,A)=|兄-只.|=只+(兄?_?少,)x?—乂?(3<1)??A?2??图3-2中竖直距离最大的点为p3,?p3即为该分段的重要点,也是时间序列??的一个分割点。??
【参考文献】:
期刊论文
[1]边缘计算应用:传感数据异常实时检测算法[J]. 张琪,胡宇鹏,嵇存,展鹏,李学庆. 计算机研究与发展. 2018(03)
博士论文
[1]时间序列数据挖掘中的特征表示与分类方法的研究[D]. 胡宇鹏.山东大学 2018
本文编号:3506163
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3506163.html