基于分类的时间序列特征选择方法
发布时间:2020-09-28 21:10
随着社会经济和计算机技术的不断发展,时间序列数据正广泛的应用于生活中的各个领域。时间序列,顾名思义是一组根据时间顺序进行排序的数据序列,它通常是在相同的时间间隔上,按照给定的采样率,记录某些指标的观测值而形成的。时间序列具有数据量大,数据维度高以及数据不断更新的特点。而且对于多变量时间序列,其变量之间具有时序性,上述种种特点使得对时间序列的研究成了数据挖掘领域一个引起广泛关注的挑战之一。时间序列的特征选择作为相关研究中一个重要的研究方向,它在时间序列的分析中起到了承上启下的作用。首先,它是对原始数据的降维,通过剔除冗余和无效数据,挑选分类性能优秀的特征来精简特征集合;其次,这些被保留的特征将作为分类模型的输入来对未知数据进行预测和分类。为了对时间序列数据进行有效的特征选择,本文将从两方面来阐述我们的研究工作:(1)对多变量时间序列的变量选择;(2)基于shapelets的特征选择。(1)多变量时间序列由于其自身的时间特性、高维特性及变量之间的相关性给挖掘带来了困难。数据本身存在着无关和冗余变量的影响,如果简单的将原有变量作为模型的输入,不但会增加训练时间,而且还会对模型的预测效果造成负面影响。因此,对多变量时间序列进行变量选择有着十分重要的作用。针对此问题,本文提出了一种基于分类的变量选择方法,该方法提出了一种基于类内距离和类间距离的变量评价准则。首先根据此评价准则对变量进行排序,同时根据输入变量之间灰相关系数的大小将冗余变量剔除,最终选择出最佳的变量子集。通过在常用的多变量时间序列数据集上进行实验,验证了本方法的有效性,同时与现有方法比较提高了分类准确率。(2)在选择出最优的变量子集后,需要对这些变量对应的时间序列进行特征提取。由于提取的特征同样具有很高的冗余性和分类性能的差异,并且这些特征通常是不等长的,这就使得特征选择的过程更加复杂。本文在主流的以shapelets作为时间序列特征的基础上,提出了一种基于层次聚类的特征选择算法,该方法可以选择出分类性能好的子序列,并过滤冗余的子序列特征。该方法首先通过求取每个类的特征向量,并根据特征向量生成候选子序列。然后通过层次聚类的方法将候选序列聚类,继而以基于类内距离和类间距离的可分离性判据为评价准则,结合聚类的结果进行特征选择。通过在UCR数据集上进行试验,验证了该方法的有效性。
【学位单位】:武汉大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;O211.61
【部分图文】:
基于分类的时间序列特征选择方法发音场景的不同,对于内容相同的一段语音它的长度就不尽相同。另外,序列,当它们分别存在于不同的时间序列时,所处的时间轴可能不同,偏移的情况下,两个时间序列是一致的。在这些复杂情况下,使用传统无法有效地求的两个时间序列之间的距离(或者相似性)。逡逑
基于分类的时间序列特征选择方法较少.但是在求概率时往往是在变量之间相互独立列这种前提并不可靠,这种情况下就需要变量选择ector邋machine,支持向量机)分类器就自身来看属数据来说,它的目的就是通过一条直线尽可能把数直线与两边样本的距离最大,即这条直线需要和条直线最近的点就称作支持向量。逡逑
并且使得这条直线与两边样本的距离最大,即这条直线需要和两个类的距离相等。逡逑而两个类中距离这条直线最近的点就称作支持向量。逡逑;::;*逡逑图1.4邋svm对线性可分类的数据分类逡逑但是现实中更多的数据是不能仅通过一条直线就可以分成两类的,这样的数据我们称之逡逑为线性不可分。对于这种情况我们就需要把低维空间的数据转化到高维空间,使得它们逡逑在高维空间是线性可分的,例如下图所示的情况,在二维空间无法将数据线性划分,所逡逑以将数据转换到三维空间,这时就可以通过一个线性的平面将数据划分为两类。再从低逡逑维空间看,就相当于使用一条曲线完成了这种划分,SVM中的核函数就是用来确定这个逡逑分类平面的。逡逑h邋?邋?逡逑<P逦■逦-少,,逡逑??邋??邋???邋^逦^逡逑图1.5邋svm处理非线性数据逡逑由于SVM是用来处理两个类的分类问题的,那么多个类的分类问题,就需要构造逡逑多个SVM。根据采取的策略不同
本文编号:2829277
【学位单位】:武汉大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;O211.61
【部分图文】:
基于分类的时间序列特征选择方法发音场景的不同,对于内容相同的一段语音它的长度就不尽相同。另外,序列,当它们分别存在于不同的时间序列时,所处的时间轴可能不同,偏移的情况下,两个时间序列是一致的。在这些复杂情况下,使用传统无法有效地求的两个时间序列之间的距离(或者相似性)。逡逑
基于分类的时间序列特征选择方法较少.但是在求概率时往往是在变量之间相互独立列这种前提并不可靠,这种情况下就需要变量选择ector邋machine,支持向量机)分类器就自身来看属数据来说,它的目的就是通过一条直线尽可能把数直线与两边样本的距离最大,即这条直线需要和条直线最近的点就称作支持向量。逡逑
并且使得这条直线与两边样本的距离最大,即这条直线需要和两个类的距离相等。逡逑而两个类中距离这条直线最近的点就称作支持向量。逡逑;::;*逡逑图1.4邋svm对线性可分类的数据分类逡逑但是现实中更多的数据是不能仅通过一条直线就可以分成两类的,这样的数据我们称之逡逑为线性不可分。对于这种情况我们就需要把低维空间的数据转化到高维空间,使得它们逡逑在高维空间是线性可分的,例如下图所示的情况,在二维空间无法将数据线性划分,所逡逑以将数据转换到三维空间,这时就可以通过一个线性的平面将数据划分为两类。再从低逡逑维空间看,就相当于使用一条曲线完成了这种划分,SVM中的核函数就是用来确定这个逡逑分类平面的。逡逑h邋?邋?逡逑<P逦■逦-少,,逡逑??邋??邋???邋^逦^逡逑图1.5邋svm处理非线性数据逡逑由于SVM是用来处理两个类的分类问题的,那么多个类的分类问题,就需要构造逡逑多个SVM。根据采取的策略不同
【参考文献】
相关期刊论文 前4条
1 李海林;;基于变量相关性的多元时间序列特征表示[J];控制与决策;2015年03期
2 刘慧;谢洪波;和卫星;王志中;;基于模糊熵的脑电睡眠分期特征提取与分类[J];数据采集与处理;2010年04期
3 加玉涛;罗志增;;肌电信号特征提取方法综述[J];电子器件;2007年01期
4 张娜;姚荣;;基于分形理论的区域降雨时间序列特征分析[J];南水北调与水利科技;2006年05期
本文编号:2829277
本文链接:https://www.wllwen.com/kejilunwen/yysx/2829277.html