MapReduce并行加速数据流多模式相似性搜索
本文选题:时间序列 + 数据流 ; 参考:《计算机应用》2017年01期
【摘要】:设计时间序列数据在Hadoop分布式文件系统(HDFS)中的有效存储方式,利用分布式缓存工具Distributed Cache将各子序列分发到Hadoop集群的计算节点上,将动态时间弯曲距离矩阵划分成多个子矩阵,采取并行迭代计算每条反对角线上子矩阵的方法,基于MapReduce编程模型,实现高效并行计算时间序列动态弯曲距离,通过改进剪裁冗余计算方法,设计实现一种数据流多模式相似性搜索并行算法。中国雪深长时间序列数据集的实验结果表明,当每条时间序列的长度达到5 000以上时,并行计算动态弯曲距离所需时间少于串行计算所需时间,当每条时间序列的长度达到9 000以上时,参与计算的集群节点越多,并行计算所需时间越少;当模式长度达到4 000、参与计算的集群节点数达5个以上时,从数据流中并行搜索出与模式匹配的相似子序列所需时间约为串行搜索所需时间的20%。
[Abstract]:The effective storage method of time series data in Hadoop distributed file system (HDFS) is designed. Each sub-sequence is distributed to the computing node of Hadoop cluster by using distributed cache tool Distributed Cache, and the dynamic time bending distance matrix is divided into several sub-matrices. Based on the MapReduce programming model, the dynamic bending distance of time series can be calculated efficiently by using the method of parallel iteration to calculate the submatrix on every anti-angle line. The method of cutting redundancy is improved. A parallel algorithm for data stream multi-pattern similarity search is designed and implemented. The experimental results of the Chinese snow depth time series data set show that when the length of each time series is more than 5,000, the time required for parallel calculation of dynamic bending distance is less than the time required for serial computation. When the length of each time series is more than 9,000, the more cluster nodes participate in the computation, the less time is required for parallel computing; when the length of the mode reaches 4,000, the number of cluster nodes participating in the calculation is more than five. The time required for parallel searching of similar sub-sequences matching patterns from the data stream is about 20 times of the time required for serial search.
【作者单位】: 广西大学计算机与电子信息学院;广西科技信息网络中心;
【基金】:广西自然科学基金资助项目(2014GXNSFAA118396)~~
【分类号】:TP311.13;O211.61
【相似文献】
相关期刊论文 前3条
1 彭建喜;;基于MapReduce的潜在因素算法在推荐系统中的研究与应用[J];科技通报;2013年12期
2 潘全;郭鸣;林鹏;;基于MapReduce的最大团算法[J];系统工程理论与实践;2011年S2期
3 ;[J];;年期
相关会议论文 前2条
1 郑宇瀚;郭燕慧;;一种针对流水线任务的云计算模型基于MapReduce的改进[A];2013年中国信息通信研究新进展论文集[C];2014年
2 华中杰;徐锡山;杨树强;田胜利;;MapReduce本地优先作业调度策略研究与实现[A];第九届中国通信学会学术年会论文集[C];2012年
相关硕士学位论文 前10条
1 王姗姗;MapReduce框架下并行有序决策树及有序决策森林[D];河北大学;2015年
2 金鹏;MapReduce框架下基于阈值约束的空间文本相似连接[D];燕山大学;2015年
3 周鸣爱;云计算中MapReduce高可用性和高效性的优化研究[D];河北工程大学;2015年
4 戴佳男;基于MapReduce模型的海量邮件社交关系分析研究[D];南京理工大学;2015年
5 闫晓妩;MapReduce下的约束频繁模式挖掘与任务调度[D];太原科技大学;2015年
6 王强;基于MapReduce的大数据增量处理研究[D];东北大学;2014年
7 魏博文;基于MapReduce的XML编码查询算法研究与实现[D];武汉纺织大学;2016年
8 张鹏;基于MapReduce的分布式社区发现算法研究[D];燕山大学;2016年
9 段秋丹;基于MapReduce的文献发现系统研究与设计[D];山东大学;2016年
10 李青;基于MapReduce的广告点击率预测系统设计与实现[D];云南大学;2016年
,本文编号:1811735
本文链接:https://www.wllwen.com/kejilunwen/yysx/1811735.html