决策支持中基于时间序列数据的异常点检测
本文选题:时间序列分析 + 决策支持 ; 参考:《中国科学技术大学》2014年博士论文
【摘要】:科技的发展使得现代企业和机构可以应用智能信息管理系统来存储和处理日常行为数据。基于这些存储数据检测到的行为变化为后续管理层制定策略提供了有效的知识。一般而言,行为数据通常以时间序列的模式被存储和分析。举例来说,在交通事件管理中,分析人员通过监测交通时间序列数据来实时监测道路上发生的事件,从而为后续的事件处理决策的制定提供重要信息。在疾病爆发监测中,正是基于各地区药品购买和使用时间序列数据,研究人员才能比较准确预测疾病的爆发情况,使及时制定应对策略和急救措施成为可能。在我们的研究中,这类基于时间序列数据来支持制定决策和战略的研究被称为基于时间序列的决策支持。 虽然现有关于基于时间序列的决策支持的研究已经展现了不错的结果,但是仍然有两个要点未得到重视:一是大部分关于基于时间序列的决策支持研究没有在本质上认识到此类研究可以被认为是基于时间序列数据的异常点检测。二是在解决问题的过程中大量的未被标注的数据没有得到有效的利用,而标识数据的过程是需要大量人工劳动的。 我们认为通过在为基于时间序列决策支持提出的框架中引进正常情况预测和非监督特征学习可以解决未被重视的两个问题。为了检测上述假设,我们通过实现两个解决交通事件检测的实验性研究,分别验证引入的两个模块。实验结果表明:正常情况预测和非监督特征学习确实能够通过提升交通时间序列数据中的异常点检测的精度和及时性,从而为后续的决策制定提供支持。 在第一个实验中我们设计了一种合成方法将正常情况预测引入到交通事件管理中基于时间序列数据的异常点检测—自动交通事件检测。在合成方法中,正常交通情境预测和机器学习分类器是两个重要的模块。其中正常交通情境预测是通过分析以往正常情况下的交通数据来预测当前理论上正常的交通情况:路段的速度、占有率,以及流量。通过输入的特征向量:真实的交通情况,预测的交通情况,和两者的差别,机器学习分类器将当前的交通状况分类成正常交通流和出现了事件的交通流。通过将合成方法应用于一个真实的交通事件数据集—I-880数据集,我们发现和基准方法相比较,这样的方法能够在一定错误警报下以比较短的时间检测到更多的事件.第一个实验研究结果为将来在交通事件检测领域中整合时间序列方法和机器学习方法的研究工作提供了基础。 在第二个研究性实验中,我们探索了非监督特征学习在自动交通事件检测中的效果,预期可以解决两个问题:1)将现存的未被标记的数据加以利用生成中心,为生成更高层次的特征向量做准备;2)进一步提高合成方法框架中的特征生成模块,从而实现自动的特征向量选取和生成。因为类似于交通事件自动检测,大多数的基于时间序列的决策支持都要求算法在实时情况下能够高效执行,所以我们选择了一种虽然简单但是已经被证明在图片识别领域非常有效的Spherical K-Means来实现非监督特征学习。我们仍然通过I-880数据集来验证算法的效果。实验结果表明,当聚类中心的数目被正确选取时,我们可以得到比基准方法更为优秀的结果。 虽然通过两个实验性研究单独证明了正常情况预测和非监督特征学习在交通自动事件检测问题中的效果,我们仍然需要在后续的研究中研究两个模块合并之后的效果并尝试找出为两个模块选择适合算法实现的规则。同时,我们为基于时间序列的决策支持所提出的框架在本论文中仅在典型的交通事件检测问题中进行了测试。为了测试框架的适用性,我们需要在其他领域进行类似的实验研究。
[Abstract]:The development of technology enables modern enterprises and institutions to use intelligent information management systems to store and process daily behavior data. Based on these stored data, behavioral changes provide effective knowledge for subsequent management strategies. Generally, behavioral data are usually stored and analyzed in a time series model. In the traffic incident management, the analyst monitors the events on the road in real time by monitoring the traffic time sequence data, thus providing important information for the decision making for subsequent event processing. In the monitoring of disease outbreak, it is based on the purchase and use of time series data from various regions. It is possible to predict the outbreak of the disease and make it possible to make response strategies and first aid measures in time. In our study, this kind of research based on time series data to support decision making and strategy is called decision support based on time series.
Although the current research on decision support based on time series has shown a good result, there are still two main points that have not been paid attention to: first, most of the decision support research based on time series does not essentially realize that this kind of research can be considered as an anomaly detection based on time series data. Two In the process of solving problems, a large number of non labeled data are not effectively utilized, and the process of identifying data requires a lot of manual labor.
We think that by introducing normal condition prediction and unsupervised feature learning in the framework of time series decision support, we can solve two problems that have not been paid attention to. In order to test the above hypothesis, we verify the two modules introduced by implementing two experimental research on traffic incident detection. It is shown that normal condition prediction and unsupervised feature learning can indeed provide support for subsequent decision making by improving the accuracy and timeliness of detection of outliers in traffic time sequence data.
In the first experiment, we designed a synthetic method to introduce normal situation prediction into the traffic event management based on time series data anomaly detection - automatic traffic event detection. In the synthetic method, normal traffic situation prediction and machine learning classifier are two important modules. Through the analysis of previous normal traffic data to predict the current normal traffic conditions in theory: the speed, occupancy, and flow of the road. Through the input feature vectors: real traffic conditions, the predicted traffic conditions, and the difference between the two, the machine learning classifier classifies the current traffic conditions into normal traffic. Flow and the traffic flow of the event. By applying the synthetic method to a real traffic event dataset, the I-880 dataset, we find that this method can detect more events in a short time under a certain error alert. The integration of time series method and machine learning method in the field of detection provides a foundation.
In the second research experiments, we explored the effect of unsupervised feature learning in automatic traffic incident detection. It is expected to solve two problems: 1) use the existing unlabeled data to make use of the generating center, prepare for the generation of higher level feature vectors; 2) to further improve the character generation in the framework of synthetic methods. As a module, automatic feature vectors are selected and generated. Because similar to the automatic detection of traffic events, most of the time series based decision support requires that the algorithm can execute efficiently in real time, so we choose a Spheric that is very simple but has been proved to be very effective in the field of image recognition. Al K-Means is used to implement unsupervised learning. We still verify the effectiveness of the algorithm through the I-880 dataset. Experimental results show that we can get better results than the baseline method when the number of cluster centers is selected correctly.
Although two experimental studies have demonstrated the effect of normal situation prediction and unsupervised feature learning in traffic automatic event detection, we still need to study the effects of the two modules in the follow-up study and try to find the rules for the selection of the two modules. The framework proposed in the decision support of time series is tested only in the typical traffic incident detection problem in this paper. In order to test the applicability of the framework, we need to carry out similar experimental research in other fields.
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:U491
【相似文献】
相关期刊论文 前10条
1 Latricha Greene;Douglas Montgomery;吴永刚;;检验导弹系统计算机仿真模型的方法[J];航空兵器;1987年05期
2 朱华;徐敏;;ARPE功率谱估计方法[J];上海交通大学学报;1988年01期
3 段志善,常国光,闻邦椿;关于时间序列AR模型定阶问题的一些研究[J];西安建筑科技大学学报(自然科学版);1989年04期
4 王宪杰,王彦;流脑疫情的灰色预测[J];电机与控制学报;1990年03期
5 侯舜华,洪国雄;信号的分维分析[J];上海海事大学学报;1993年04期
6 张亚崇 ,郭圣权;火炮射击过程中航向变化的数学建模[J];火炮发射与控制学报;2000年01期
7 杨正瓴,林孔元,余贻鑫;用时间序列的李雅普诺夫指数计算预报电力系统中的某些失稳现象[J];中国电机工程学报;2001年01期
8 肖武权,冷伍明;路堤沉降的时间序列动态预测方法[J];铁道工程学报;2004年04期
9 王波;张凤玲;;神经网络与时间序列模型在股票预测中的比较[J];武汉理工大学学报(信息与管理工程版);2005年06期
10 韩敏;席剑辉;范明明;;神经网络应用于多元变量时间序列的建模研究[J];仪器仪表学报;2006年03期
相关会议论文 前10条
1 吴炎;杜栋;;改进BP神经网络及其对江苏省粮食产量的仿真预测[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年
2 张玉峰;贾成刚;张文喜;;应用时间序列评估人工增雨效果[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 王永忠;曾昭磐;;混沌时间序列点预测方法研究[A];1999中国控制与决策学术年会论文集[C];1999年
4 王波;张斌;;一种基于云模型的时间序列特征表示方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 王有良;周文国;;基于时间序列的基坑水平变形预测模型[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
6 王玉涛;程国辉;周建常;王师;;神经网络在高炉铁水硅含量预报中的应用[A];1998中国控制与决策学术年会论文集[C];1998年
7 许伦辉;傅惠;徐建闽;;基于分形维数的交通流预测模型及算法研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 胡坤;刘思峰;;时间序列灰色定权聚类模型[A];2004年中国管理科学学术会议论文集[C];2004年
9 蒋斌松;韩立军;贺永年;;时间序列Lyapunov指数的估算及预测[A];矿山建设工程新进展——2005全国矿山建设学术会议文集(下册)[C];2005年
10 何全军;曹静;张月维;;基于MODIS的广东省植被指数序列构建与应用[A];中国气象学会2007年年会生态气象业务建设与农业气象灾害预警分会场论文集[C];2007年
相关重要报纸文章 前10条
1 ;《时间序列与金融数据分析》[N];中国信息报;2004年
2 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年
3 本报记者 刘松柏;“超级月球”引发地震不成立[N];经济日报;2011年
4 权证一级交易商 国信证券;正股走势及时间序列主导下半年权证市场运行结构[N];证券时报;2006年
5 房鹏;数码书信寄真情[N];中国电脑教育报;2005年
6 刘丽萍;时间序列季节调整描述经济活动的利器[N];中国信息报;2000年
7 西南证券高级研究员 董先安邋德圣基金研究中心 郭奔宇;预计6月CPI同比上涨7.2%[N];证券时报;2008年
8 国泰君安期货 吴泱 郑腾;基金持仓与期货价格关系的实证研究[N];期货日报;2008年
9 倪成群;人民币升值背景下中外金价和黄金投资收益关联性研究[N];期货日报;2008年
10 中期研究院 王璐 吕圳;重标极差法的期货品种收益波动性研究[N];期货日报;2008年
相关博士学位论文 前10条
1 杨正瓴;时间序列中的混沌判定、预报及其在电力系统中的应用[D];天津大学;2003年
2 张晓伟;水文动力系统自记忆特性及其应用研究[D];西安理工大学;2009年
3 倪丽萍;基于分形技术的金融数据分析方法研究[D];合肥工业大学;2010年
4 刘大同;基于Online SVR的在线时间序列预测方法及其应用研究[D];哈尔滨工业大学;2010年
5 张永林;车辆道路数值模拟与仿真研究[D];华中科技大学;2010年
6 崔亚强;沪深300股指内在复杂性分析及预测研究[D];天津大学;2010年
7 杨谈;网络混沌行为及其控制的研究[D];北京邮电大学;2009年
8 李星毅;基于相似性的交通流分析方法[D];北京交通大学;2010年
9 肖辉;时间序列的相似性查询与异常检测[D];复旦大学;2005年
10 卢占会;电力市场稳定性研究[D];华北电力大学(河北);2008年
相关硕士学位论文 前10条
1 Ashraf Fetoh Eata;[D];厦门大学;2001年
2 王丽敏;两类模糊随机时间序列预测方法[D];河北大学;2001年
3 王琦;时间序列在油田效益审计中的应用[D];吉林大学;2009年
4 韩冬梅;基于P2P的教学信息资源负载均衡调度算法的研究[D];哈尔滨工程大学;2010年
5 张雷;多层次分布式智能决策支持系统及应用研究[D];西北工业大学;2006年
6 王金翠;基于实测数据的风电场风速和风功率短期预测研究[D];东北电力大学;2010年
7 赵松雷;基于频谱仪的无线自动测试系统与信号特性分析[D];北京邮电大学;2010年
8 姚兰;中国民办高等教育市场空间研究[D];河南大学;2007年
9 吴烨清;时间序列理论在软件可靠性建模中的应用和研究[D];华中农业大学;2009年
10 曹晓琴;非线性优化的混合算法及其应用[D];燕山大学;2010年
,本文编号:1840788
本文链接:https://www.wllwen.com/kejilunwen/jiaotonggongchenglunwen/1840788.html