当前位置:主页 > 科技论文 > 自动化论文 >

复杂环境下时间序列预测方法研究

发布时间:2020-07-13 23:24
【摘要】:时间序列数据是按时间顺序进行观测的观测值的集合,是序列数据中一类重要的数据对象,广泛存在于我们的日常生活中和科学研究领域。时间序列数据的特点包括数据量大、维度高、不断更新等。此外,时间序列数据具有数值性和连续性的特点,通常我们认为时间序列中的关键信息存在于整体变化中而非某个具体数值。时间序列数据日益广泛的使用,引发了数据挖掘领域的大量研究和开发尝试。分类和预测是数据挖掘领域的经典问题,然而由于时间序列数据的复杂性,在过去几十年间,时间序列数据分类预测已成为分类研究中的特殊挑战,诸多研究人员针对该问题进行了广泛而深入的研究。尽管在时间序列分类问题的研究上已经取得了长足的进展,在一些复杂场景下的特定算法研究还很欠缺,存在着一些待解决的问题。首先,当时间序列中具有辨别性的片段具有相位偏移时,如何准确高效的找出这些片段进行精确分类;第二,当一条时间序列存在多个类标时,如何利用多标记间的依赖关系,并建立适用于时间序列的有效的多标记分类算法;第三,当一个时间序列实例同时具有多个变量时,如何实现有效的多变量时间序列分类算法;最后,在推荐系统中,如何结合用户评分序列中的时序信息,建立推荐预测算法。本文围绕以上四种复杂环境深入研究了如何建立有效的时间序列预测算法,主要贡献如下:(1)设计了一种正规化的时间序列shapelet随机森林算法(Regularized Random Shapelet Forest,RRSF)。由于shapelet算法的固有特性,RRSF算法寻找辨别性子序列的过程与相位无关。此外,本文通过随机选取的策略加速了 shapelet的发现过程,通过集成学习方法保障了算法的预测精度,而且通过惩罚相似shapelet的方式使得随机森林中的冗余shapelet大大减少,进一步提升了算法精度和可解释性。(2)设计了一种多标记时间序列分类算法(ReliefF based Stacking,RFS)。该算法通过将标记属性加入到原有属性空间中并进行属性选择的方式,不仅定性的利用了标记间的依赖关系,而且对依赖关系进行了定量计算。进而采取时间序列符号化方法对数据进行转化,生成适用于时间序列数据的多标记分类模型。这既是对时间序列数据标记间依赖关系利用方法的深入扩展,也是多标记属性选择方法的全新应用。(3)设计了一种多变量时间序列分类算法。该算法将多变量时间序列转换为单变量时间序列数据,在保留统计特征的基础上加入和不同变量间的变化趋势特征,有效的利用了多变量间的相互关系,解决了多变量时间序列分类问题。并且,将MOOC中学生辍课预测问题视为实际应用场景,在真实MOOC数据中验证了该算法的有效性,并进行了早期预测的尝试。(4)设计并实现了一种基于评分矩阵局部低秩假设的时序协同排名算法。该算法结合了评分序列中的时序信息和排名学习技术两个领域的内容,首先我们假设评分矩阵具有局部低秩性,进而选择使用成列排名函数来优化其矩阵分解模型。上述研究成果在多种复杂环境实现了具有针对性的时间序列预测算法,展现了各个算法在预测过程的高效性,提升了时间序列预测方法的可解释性,也尝试解决了一些实际应用问题,验证了本文算法的实用性。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:O211.61;TP18
【图文】:

心电图,数据,人类,心电图


之间的关系,如图l.i给出的是某一年间热能的消耗量变化数据;在销售领域,产逡逑品的销售量、定价、成本等都会随着时间或季节的变化而变化,对这些数据进行逡逑分析,有利于帮助商家设计更优的销售模式,取得更高的利润,如图1.2展示的是逡逑某产品各个月份内的销量;在医学领域,医护人员常会采集病人的心电图数据,逡逑每分钟心跳次数,每日睡眠时长,血压等等。通过分析这些数据,可以发现用户逡逑行为习惯,帮助用户保持良好生活方式,对用户进行健康监测,协助进行临床诊逡逑断,如图1.3给出了一*^心电图(electrocardiogram,ECG)数据的例子。此外,时逡逑间序列数据还普遍存在于网络异常检测[2]、电压稳定评估[3]、经济形势预测[4]、恶逡逑意软件检测[5]、基因表达分析[6]、天气预测[7]等领域中。逡逑|邋丨逡逑§邋,邋n逦逡逑Nov逦Dec逦Jan逦Feb逦Mar逦Apr逡逑图1.1某年间的热能消耗逡逑Figure邋1.1邋An邋example邋of邋heat邋consumption邋in邋one邋year逡逑人类能够本能地根据时间序列数据所表现出的实际形式来重塑这些数据所代逡逑表的原始的与自然的东西。我们能够避免关注小的波动以得到形状的概念,也能逡逑够几乎立即分辨出各种时间尺度模式之间的相似性。当然,人类是依靠大脑复杂逡逑的机制来实现这样的任务

销售数据,传统分类,未知序列,可解释性


北京交通大学博士学位论文个未知序列指定一个类别。但相较于传统分类任务,时间序列分类个主要方面的挑战。首先,时间序列数据通常是集有一定顺序的关据集合,而传统分类器通常没有考虑属性的先后顺序关系,因此难列分类问题。其次,虽然可以通过特征提取来消除序列顺序的影响,下算法提取的特征可解释性较弱,难以完整表示原始时间序列。逡逑I逡逑

心电图,对时,示例,算法


I逡逑认九逡逑逦逦V逡逑图1.2某商品的月销售数据逡逑Figure邋1.2邋An邋example邋of邋monthly邋sales邋for邋a邋product逡逑图1.3心电图示例逡逑Figure邋1.3邋An邋example邋of邋ECG邋dataset逡逑基于不同的标准可以对时间序列分类算法进行不同的划分。在本文中我们基逡逑于分类策略将时间序列分类算法分为基于距离和基于特征两类方法。基于距离的逡逑方法与传统分类方法一样,将序列看作向量,使用特定的距离公式度量向量之间逡逑的相似性。大多数的研宄工作都集中在寻找合适的弹性距离公式来度量时间序列逡逑间的相似性。基于特征的方法是为每一个序列形成一个序列表示,进而使用传统逡逑分类器进行分类。这类方法的重点在于寻找一种合适的序列表示。接下来我们对逡逑这两类方法进行详细介绍。逡逑1.2国内外发展现状逡逑迄今为止,国内外研究人员己经提出了许多算法用于解决时间序列分类问题。逡逑截止至2013年,至少有100篇论文中提出了时间序列分类(Time邋Series逡逑2逡逑

【参考文献】

相关期刊论文 前4条

1 原继东;王志海;韩萌;;基于Shapelet剪枝和覆盖的时间序列分类算法[J];软件学报;2015年09期

2 原继东;王志海;;时间序列的表示与分类算法综述[J];计算机科学;2015年03期

3 李正欣;张凤鸣;李克武;张晓丰;;一种支持DTW距离的多元时间序列索引结构[J];软件学报;2014年03期

4 冯玉才;蒋涛;李国徽;朱虹;;高效时序相似搜索技术[J];计算机学报;2009年11期



本文编号:2754129

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2754129.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2f268***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com