海量时间序列数据处理的关键技术研究

发布时间:2018-01-06 06:35

  本文关键词:海量时间序列数据处理的关键技术研究 出处:《大连理工大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 时间序列数据处理 数据流聚集 相似性查询 相关系数 网络调度


【摘要】:近年来,传感器网络、物联网、云数据中心和移动互联网等新技术的快速发展使时间序列数据呈现了爆炸式增长,而时间序列数据具有其他类型数据所不具备的特点。首先,时间序列数据规模非常大,同时又是以数据流的形式源源不断产生,其计算面临着数据流频率高、序列过长和数据量过大而导致响应时间过长的问题;其次,时间序列数据还具有维度高、特征多样化等特点,其索引划分精度和处理效率需进一步提高。在时间序列数据处理平台中还有大量问题需要解决,针对离线批处理、在线计算和数据流实时处理三种典型的大数据处理模式,本文分别选取了基于MapReduce的海量时间序列的相似性连接、基于HBase的时间序列数据的皮尔森相关系数(下文简称"相关系数")估算和实时数据流多连续查询共享三个关键问题进行深入研究;同时针对海量时间序列数据处理平台的Hadoop集群,深入研究了集群网络调度问题。具体创新如下:(1)针对海量时间序列的相似性连接问题,基于MapReduce提出了索引结构相似性连接树SJT(Similarity Join Tree)。SJT可以通过结点之间的位置关系记录分区阶段产生的计算量,在Reduce阶段利用这些已有的计算量剪枝大量精算阶段的计算量,以提高计算效率;为保证分区负载均衡,扩展F-M(Fiduccia-Mattheyse)算法,设计了基于SJT的图分区算法,该方法可以保证分区之间传输的数据量最小。实验证明,提出的方法优于当前的最好的方法ClusterJoin和MAPSS。(2)为了提高在HBase上实时计算长时间序列相关系数的效率,提出了一种相关系数上下界的快速估计算法DCE。为了进一步减少I/O代价,对DCE算法进行扩展,提出了 ADCE算法,该算法通过维护一种多层摘要数据,能够通过迭代对相关系数进行估计。实验证明,提出的算法能够快速计算长时间序列(如:108、1010的长度)的相关系数。(3)针对实时数据流聚集运算,提出基于窗口的多连续查询的协同聚集模型,可以在窗口中实现结果共享,以避免重复的聚集操作。已有的聚集共享方法往往受到窗口步长限制,而本文提出的多连续查询环境下基于步长和结果的窗口重用机制,可以通过一系列逐渐减少的多值来简化聚集过程,每一步都缩减操作步骤,并完成结果共享。提出了 feed语义来标准化共享全过程,并提出compose-and-declare框架来处理数据共享逻辑。实验证明,提出的方法比当前的最好方法TriWeave性能有所提升。(4)为了减少时间序列数据处理作业的完成时间,基于Hadoop集群,通过实时监控并获取应用层的网络流信息,提出了基于作业的优先级调度方法。提出Flow-based和Spray两种利用等价多路径的方法,并在Fat-Tree拓扑中实现负载均衡。实验证明,提出的调度方法可以提升shuffle阶段作业执行效率,尤其是减少了最高优先级作业的网络传输时间。
[Abstract]:In recent years, with the rapid development of sensor network, Internet of things, cloud data center and mobile Internet, time series data has been explosive growth. But the time series data has the characteristic which other types of data do not have. First, the time series data scale is very large, at the same time the time series data is produced continuously in the form of the data stream, its computation faces the high frequency of the data flow. Too long sequence and too large amount of data lead to the problem of too long response time; Secondly, the time series data also has the characteristics of high dimension and diverse features, its indexing accuracy and processing efficiency need to be further improved. There are still a lot of problems to be solved in the time series data processing platform. Aiming at the three typical big data processing modes of off-line batch processing, on-line computing and real-time data flow processing, this paper selects the similarity connection of massive time series based on MapReduce. There are three key problems in the estimation of Pearson correlation coefficient (hereinafter referred to as "correlation coefficient") of time series data based on HBase and multi-continuous query sharing in real-time data flow. At the same time, aiming at the Hadoop cluster of magnanimous time series data processing platform, the scheduling problem of cluster network is studied in depth. The concrete innovation is as follows: 1) the similarity connection problem of mass time series is discussed. An index structure similarity join tree SJT(Similarity Join tree based on MapReduce is proposed. SJT can record the amount of computation generated during the partition phase through the location relationship between nodes. In the Reduce stage, these existing calculations are used to prune a lot of calculations in the actuarial stage in order to improve the calculation efficiency. In order to ensure partition load balance and extend F-MN Fiduccia-Matthew algorithm, a graph partitioning algorithm based on SJT is designed. This method can ensure the minimum amount of data transferred between partitions. The proposed method is superior to the current best methods ClusterJoin and MAPSS. 2) in order to improve the efficiency of real-time calculation of correlation coefficients of long time series on HBase. A fast estimation algorithm for the upper and lower bounds of correlation coefficients is proposed. In order to further reduce the I / O cost, the DCE algorithm is extended and the ADCE algorithm is proposed. By maintaining a multi-layer summary data, the algorithm can estimate the correlation coefficient by iteration. Experiments show that the proposed algorithm can quickly calculate long time series (such as: 108). The correlation coefficient of 1010))) for real-time data stream aggregation, a window-based multi-continuous query based cooperative aggregation model is proposed, and the results can be shared in the window. In order to avoid repeated aggregation operations, existing aggregation sharing methods are often limited by window step size, and the window reuse mechanism based on step size and result is proposed in this paper. The aggregation process can be simplified by a series of decreasing multi-values, each step can reduce the operation steps and complete the result sharing. A feed semantics is proposed to standardize the whole process of sharing. The compose-and-declare framework is proposed to deal with the data sharing logic. In order to reduce the time series data processing job completion time, the proposed method is based on Hadoop cluster. Through real-time monitoring and obtaining the network flow information of the application layer, a job-based priority scheduling method is proposed, and two equivalent multipath methods, Flow-based and Spray, are proposed. Load balancing is realized in Fat-Tree topology. Experiments show that the proposed scheduling method can improve the efficiency of job execution in shuffle phase. In particular, the network transmission time of the highest priority jobs is reduced.
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:O211.61

【相似文献】

相关期刊论文 前10条

1 张明席,胡成群;可进行择优决策的时间序列预报方法[J];气象;1989年06期

2 施久玉,杜金观;有限个状态时间序列的某些结果[J];应用数学学报;1990年01期

3 冯希杰;长江三峡及其邻区断裂活动时间序列[J];华南地震;1991年02期

4 王霞,郭嗣琮,刘淑娟;时间序列模糊滑动预测[J];辽宁工程技术大学学报(自然科学版);1999年03期

5 温品人;时间序列预测法的实际应用分析[J];江苏广播电视大学学报;2001年06期

6 许清海;混沌投资时间序列的嬗变[J];漳州师范学院学报(自然科学版);2003年01期

7 程毛林;时间序列系统建模预测的一种新方法[J];数学的实践与认识;2004年08期

8 高洁;长记忆时间序列适应性预测的应用[J];江南大学学报;2004年05期

9 高洁;孙立新;;长记忆时间序列的适应性预测误差的谱密度[J];统计与决策;2006年13期

10 杨钟瑾;;浅谈时间序列的分析预测[J];中国科技信息;2006年14期

相关会议论文 前10条

1 周家斌;张海福;杨桂英;;多维多步时间序列预报方法及其应用[A];中国现场统计研究会第九届学术年会论文集[C];1999年

2 马培蓓;纪军;;基于时间序列的航空备件消耗预测[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年

3 卢世坤;李夕海;牛超;陈蛟;;时间序列的非线性非平稳特性研究综述[A];国家安全地球物理丛书(八)——遥感地球物理与国家安全[C];2012年

4 李强;;基于线性模型方法对时间序列中异常值的检测及证券实证分析[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年

5 戴丽金;何振峰;;基于云模型的时间序列相似性度量方法[A];第八届中国不确定系统年会论文集[C];2010年

6 谢美萍;赵希人;庄秀龙;;多维非线性时间序列的投影寻踪学习逼近[A];'99系统仿真技术及其应用学术交流会论文集[C];1999年

7 张大斌;李红燕;刘肖;张文生;;非线性时问序列的小波-模糊神经网络集成预测方法[A];第十五届中国管理科学学术年会论文集(下)[C];2013年

8 黄云贵;;基于时间序列的电网固定资产投资规模研究[A];2012年云南电力技术论坛论文集(文摘部分)[C];2012年

9 李松臣;张世英;;时间序列高阶矩持续和协同持续性研究[A];21世纪数量经济学(第8卷)[C];2007年

10 陈赫;罗声求;;历史横断面数据的时间序列化[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年

相关重要报纸文章 前6条

1 ;《时间序列与金融数据分析》[N];中国信息报;2004年

2 何德旭 王朝阳;时间序列计量经济学:协整与有条件的异方差自回归[N];中国社会科学院院报;2003年

3 刘俏;让数据坦白真相[N];21世纪经济报道;2003年

4 西南证券高级研究员 董先安邋德圣基金研究中心 郭奔宇;预计6月CPI同比上涨7.2%[N];证券时报;2008年

5 东证期货 王爱华 杨卫东;两年涨跌轮回 秋季普遍下跌[N];期货日报;2009年

6 任勇邋郑重;中国对世界钢材价格的影响实证分析[N];现代物流报;2007年

相关博士学位论文 前10条

1 张墨谦;遥感时间序列数据的特征挖掘:在生态学中的应用[D];复旦大学;2014年

2 张德成;滑坡预测预报研究[D];昆明理工大学;2015年

3 苗圣法;时间序列的模式检测[D];兰州大学;2015年

4 翁同峰;时间序列与复杂网络之间等价性问题及表征应用研究[D];哈尔滨工业大学;2015年

5 杨婷婷;用Argo浮标结合卫星观测估算北太平洋经向热输运[D];中国科学院研究生院(海洋研究所);2015年

6 史文彬;时间序列的相关性及信息熵分析[D];北京交通大学;2016年

7 原继东;时间序列分类算法研究[D];北京交通大学;2016年

8 卢伟;基于粒计算的时间序列分析与建模方法研究[D];大连理工大学;2015年

9 胡建明;基于正则化核学习模型的时间序列多步预测的研究与应用[D];兰州大学;2016年

10 黄标兵;回声状态网络时间序列预测方法及应用研究[D];吉林大学;2017年

相关硕士学位论文 前10条

1 陈健;基于多变量相空间重构的投资组合策略研究[D];华南理工大学;2015年

2 兰鑫;时间序列的复杂网络转换策略研究[D];西南大学;2015年

3 米晓将;区域尺度下月均气温的时空演化格局研究[D];昆明理工大学;2015年

4 张鸣敏;基于支持向量回归的PM_(2.5)浓度预测研究[D];南京信息工程大学;2015年

5 林健;基于改进小世界回声状态网的时间序列预测[D];渤海大学;2015年

6 曹智丽;日气温和干旱指数支持向量回归预测方法[D];南京信息工程大学;2015年

7 高雄飞;基于分形理论的土壤含水量时间序列特性分析[D];长安大学;2015年

8 姚茜;城市安全生产发展目标研究[D];中国地质大学(北京);2015年

9 谢翠颖;苏州社会消费品零售总额简析[D];苏州大学;2015年

10 包仁义;基于时间序列的搜索引擎评估模型算法研究[D];东北师范大学;2015年



本文编号:1386731

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1386731.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6dfe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com