当前位置:主页 > 科技论文 > 数学论文 >

大规模多源时间序列预处理与隐藏空间映射分析研究

发布时间:2020-06-18 01:57
【摘要】:近年来,随着互联网技术、大数据技术的迅速发展,数据呈现出爆发式的增长。对数据进行预处理提升数据质量是确保数据挖掘方法有效性的重要一步。数据预处理通常是指处理包含噪声数据和冗余数据的输入数据。传统的方法基于单一数据源进行处理或者难以处理含较高噪声的数据。本文首先介绍了时间序列的基本概念及基本分析方法,结合具体的研究内容,总结并分析了多源时间序列的研究方法及研究现状。之后,主要针对多源时间序列的数据预处理算法进行研究,研究的问题从简单到复杂,提出的算法也从浅到深。研究了含辅助数据源低维多源时间序列预处理及数据融合问题;不含辅助数据源信息的高缺失噪声低维多源时间序列缺失数据预处理问题;高维含多种噪声的多源时间序列预处理问题;同时研究在隐藏空间中直接建立含噪声多源时间序列的回归模型,为系统未来状态预测作预处理。取得的主要成果如下:提出了含辅助数据源的低维多源时间序列预处理框架。在此数据预处理框架中,提出了基于优化线性回归(OLR)、优化支持向量机(OSVM)和精炼支持向量机(RSVM)的缺失数据预测模型,结合辅助数据源策略,提升原始数据的数据质量。此外,本文引入了一种基于皮尔逊关联分析的方法融合辅助数据源的数据,提取了与目标数据源有强关联关系的辅助信息,本文进一步设计了一种基于主成分分析法(PCA)的数据清洗方法,通过对融合后的数据进行预处理,减少了原始训练集的数据维度和噪声,从而提升了故障诊断的准确性,而且可进一步减少模型的训练时间。大规模多源时间在并行环境下的实现验证了所提出方法的有效性及更高的执行效率。提出了基于正则化矩阵分解的高缺失噪声低维多源时间序列预处理算法。为提升模型的鲁棒性,从整体上提取原始多源时间序列信息,本文将时间序列矩阵映射至隐藏空间,并设计适用于时间序列的正则化约束项以提高缺失数据预测准确率。对此,本文提出了可较为精确提取矩阵分解过程中隐藏空间的隐藏因子的方法,通过约束矩阵分解以预测多源时间序列缺失数据。该方法利用每条时间序列的平滑性及传感器网络的跨源信息约束矩阵分解目标方程。相应地引入了平滑性约束、相关传感器约束、不相关传感器约束,并建立了五个相应的模型。较好的实验结果验证了引入约束之后矩阵分解过程中的隐藏因子提取的有效性。此外,并行环境下的实现不仅验证了所提出方法的有效性,更证明了在处理规模较大数据时的高效性。针对时间序列的动态特性,建立动态的矩阵分解模型,以适应当有新样本进入系统时的快速更新。此动态模型可确保在新样本数据到来后更新模型时误差控制在合理范围内,精炼策略可确保动态模型在长时间更新后仍保持很好的鲁棒性。对于大规模数据的处理,本文同样在并行计算环境下实现了动态矩阵分解模型。提出了基于特征选择及张量分解的高维含多种噪声时间序列预处理算法。为从高维含多种噪声时间序列中提取紧凑的精确的表示信息进行降噪,以获得更优的高维含多种噪声时间序列分类准确度,本文提出了一个有监督时序张量分解核框架STT(Supervised Temporal Tensor kernel framework)。STT克服了传统方法的一些缺陷,例如传统的方法要求给定训练数据的相对高的完整性,要求原始时间序列的多个数据源间无时延,以及对高信噪比的需求。STT由三步组成:(1)用于特征选择及提高模型泛化能力的鲁棒性池化;(2)有监督时序因子分解,用于提取所选特征的更紧凑的信息表示;(3)用于核生成的张量结构投影。实验结果验证了即使当多源时间序列中的噪声较高时,所提出的方法也可以取得较为优良的性能。提出了面向系统未来状态评价的含噪声多源时间序列预处理框架。为了对系统未来状态预测作预处理,通过预处理含辅助数据源的多源时间序列,本文提出了不完整时间序列预测框架ISM(Incomplete time series prediction based on Selective tensor modeling and Multi-kernel learning)。ISM由三部分组成:张量构建;隐藏因子提取;张量结构映射及多核学习。针对含辅助数据源的多源时间序列,设计了较优的张量构建方法;之后,将构建的张量进行因子分解,即将含噪声数据映射至隐藏空间从而达到降噪的目的;最后,基于张量结构映射并利用多核学习天然对应的多数据源特性,进行时间序列未来数据预测,为系统未来状态评价作准备。实验结果表明,ISM框架展现出比传统方法更优的性能。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP311.13;O211.61
【图文】:

示意图,缺失数据,时间序列预测,示意图


控因素的干扰,或多或少的会出现数据缺失;而数据缺失会直接影响到所建立模型的效果,并最终影响到预测及决策。缺失数据预测,即直接填补缺失的数据是基于观测得到的数据进行填充,如图2 2(a)所示。因此缺失数据预测很大程度上依赖于所观测得到的数据。作为时间序列研究的热点之一,缺失数据预测的代表性建模方法包括确定性模型— 13 —

示意图,缺失数据,示意图,预测算法


图 3 2 缺失数据预测示意图Fig 3 2 Illustration of missing data prediction如图3 2所示,我们假设t缺失,时间序列的缺失数据预测算法如下[84]:t= (t 1 t 2 t 3) +t(3 1)— 22 —

【相似文献】

相关期刊论文 前10条

1 孙其法;闫秋艳;闫欣鸣;;基于多样化top-k shapelets转换的时间序列分类方法[J];计算机应用;2017年02期

2 王金策;杨宁;;时间序列趋势预测[J];现代计算机(专业版);2017年02期

3 彭佳星;肖基毅;;基于分型转折点的证券时间序列分段表示法[J];商;2016年31期

4 刘伟龙;;基于ARMA模型的股价预测及实证研究[J];智富时代;2017年02期

5 周仰;;《漫长的告别》(年度资助摄影图书)[J];中国摄影;2017年04期

6 王嵬;;王嵬作品[J];当代油画;2017年07期

7 刘明华;张晋昕;;时间序列的异常点诊断方法[J];中国卫生统计;2011年04期

8 郭崇慧;苏木亚;;基于独立成分分析的时间序列谱聚类方法[J];系统工程理论与实践;2011年10期

9 王佳林;王斌;杨晓春;;面向不确定时间序列的分类方法[J];计算机研究与发展;2011年S3期

10 万里;廖建新;朱晓民;倪萍;;一种基于频繁模式的时间序列分类框架[J];电子与信息学报;2010年02期

相关会议论文 前10条

1 周家斌;张海福;杨桂英;;多维多步时间序列预报方法及其应用[A];中国现场统计研究会第九届学术年会论文集[C];1999年

2 张可;李媛;柴毅;黄磊;;基于分段趋势的符号化时间序列聚类表示[A];第37届中国控制会议论文集(D)[C];2018年

3 张立波;庞蓉蓉;王勇;黄敏;何成涛;傅强;曲贤敏;仲昭衍;;基于时间序列的随机质控设计与应用[A];中国输血协会第九届输血大会论文专辑[C];2018年

4 徐光晶;;统计学在大地电磁测深时间序列处理中的应用[A];2017中国地球科学联合学术年会论文集(二十九)——专题57:电磁地球物理学研究及其应用[C];2017年

5 毛宇清;王咏青;王革丽;;支持向量机方法应用于理想时间序列的预测研究[A];中国气象学会2008年年会气候预测研究与预测方法分会场论文集[C];2008年

6 吴丽娜;黄领梅;沈冰;吕继强;;黄河上游降水时间序列混沌特性识别与预测年限分析[A];水系统与水资源可持续管理——第七届中国水论坛论文集[C];2009年

7 吴坚忠;路子愚;郑应平;;时间序列社会悖论模型及分析[A];1989年控制理论及其应用年会论文集(上)[C];1989年

8 雷敏;孟光;谢洪波;Kerreie Mengersen;Peter Bartlett;;嵌入维数对复杂时间序列的熵分析的影响研究[A];中国力学大会-2015论文摘要集[C];2015年

9 王兆甲;王海良;;一种相似时间序列挖掘算法及其在汽车运动分析中的应用[A];2014中国汽车工程学会年会论文集[C];2014年

10 林忠辉;莫兴国;薛玲;;用NDVI时间序列确定作物物侯和作物类型判别[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年

相关重要报纸文章 前10条

1 王晓宝 杨永恒 永安期货;浅析波动率的均值回复特征[N];期货日报;2017年

2 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年

3 国家统计局核算司 吕峰;不变价GDP时间序列数据的构造[N];中国信息报;2016年

4 ;《时间序列与金融数据分析》[N];中国信息报;2004年

5 何德旭 王朝阳;时间序列计量经济学:协整与有条件的异方差自回归[N];中国社会科学院院报;2003年

6 刘俏;让数据坦白真相[N];21世纪经济报道;2003年

7 卞纪;我国多时间序列湿地遥感制图完成[N];中国气象报;2011年

8 权证一级交易商 国信证券;正股走势及时间序列主导下半年权证市场运行结构[N];证券时报;2006年

9 广发期货股指研究小组 谢贞联;Hurst指数提示市场升势或将形成[N];上海证券报;2012年

10 丁睿 中粮期货研究院;试论指数HP滤波分析法的应用[N];期货日报;2014年

相关博士学位论文 前10条

1 刘海洋;复杂环境下时间序列预测方法研究[D];北京交通大学;2019年

2 石巍巍;大规模多源时间序列预处理与隐藏空间映射分析研究[D];上海交通大学;2018年

3 康峻;基于时间序列遥感数据的植被精细分类与覆盖度反演研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年

4 林蕾;基于循环神经网络模型的遥感影像时间序列分类及变化检测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年

5 丁红;柳江径流分析与预测研究[D];武汉理工大学;2016年

6 周超;集成时间序列InSAR技术的滑坡早期识别与预测研究[D];中国地质大学;2018年

7 张琪;时间序列流数据异常检测问题的研究[D];山东大学;2019年

8 张方;局部相似分析的统计研究及其在生物时间序列中的应用[D];山东大学;2019年

9 郝鹏宇;基于多时相遥感数据的作物早期识别[D];中国农业科学院;2019年

10 邹蕾;基于趋势基元的时间序列同构关系发现[D];北京科技大学;2017年

相关硕士学位论文 前10条

1 刘彩云;基于时间序列挖掘技术的南水北调工程安全监测数据异常检测[D];华北水利水电大学;2019年

2 潘壮壮;微博热点话题表示及演化研究[D];安徽理工大学;2019年

3 武帅;面向时间序列的增量模糊聚类算法研究[D];河南理工大学;2018年

4 王赛兰;基于多元方法和时间序列的PM2.5浓度分析与预测[D];湖南师范大学;2019年

5 曹洋洋;时间序列的特征表示和相似性度量方法研究[D];江南大学;2019年

6 刘昶;基于时间序列的经典模型和LSTM模型的城市宏观行程速度预测研究[D];北京交通大学;2019年

7 朱志静;基于趋势和特征子序列的时间序列数据挖掘研究[D];江南大学;2019年

8 尹康;基于LSTM的关联时间序列预测方法研究[D];北京交通大学;2019年

9 陈洋;中高空间分辨率卫星NDVI时间序列数据重建技术研究[D];电子科技大学;2019年

10 肖宁宁;基于时间序列InSAR技术的成都地区地表沉降研究[D];电子科技大学;2019年



本文编号:2718510

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2718510.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa3bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com