基于STORM的流数据分类挖掘算法的研究
本文选题:流数据 + 分类挖掘 ; 参考:《南京邮电大学》2016年硕士论文
【摘要】:随着网络、传感器技术的快速发展与应用,越来越多的流数据正在产生,因此针对流数据的挖掘技术逐步兴起。流数据挖掘是指从大规模、快速到达、异构的数据源中有效地挖掘有价值知识的数据处理技术。本文把面向流数据的分类挖掘算法作为研究重点,以提高流数据分类挖掘效率以及分类精度为目标,既研究算法本身的改进又研究算法基于流数据处理平台Storm的分布式并行化。以提高实时在线流数据的分类挖掘时间效率为目标,将快速决策树算法VFDT部署到流数据计算平台Storm上,设计了VFDT算法基于Storm的分布式并行化方案。通过正确设计Topology中的Spout/Bolt实现各模块的功能,通过为分类Bolt设定多个Task来实现分类模块的并行化;用内存数据库Redis实现模块的有效衔接和决策树的保存;用消息中间件Kafka来提高算法对流数据突增的容忍度。基于该方案的VFDT算法实现与测试结果表明,在Storm集群环境下,VFDT算法的时间效率相对于单机环境有显著提高,而且合理设定分类Bolt的Task可使分类效率进一步提高。针对高维数据集,以进一步提高在线流数据分类模型建立的时间效率为目标,对VFDT算法实施垂直并行化,设计了垂直并行化的快速决策树算法(Vertical Parallelism Very Fast Decision Tree,VPVFDT)。该算法将VFDT算法的属性信息增益的计算做并行化处理,从而提高样本处理效率。在此基础上,通过将VPVFDT部署到Storm平台上运行,更进一步提高了算法的处理效率,也增强了算法的可拓展性。实验结果表明,在Storm集群环境下,VPVFDT算法在一定程度上可以提高高维训练样本的处理效率。以提高VFDT算法的分类精确度为目标,将随机森林算法思想集成到VFDT算法中,提出了基于随机森林的快速决策树算法(Random Forest Very Fast Decision Tree,RFVFDT)。RFVFDT算法采用随机森林的决策树构造标准建立分类器模型,并采用滑动窗口技术来满足流数据的无界性以及避免在算法执行过程中的延迟和数据丢失。通过基于Storm平台的仿真实验验证了RFVFDT算法在分类精度和可拓展性方面的优势。本文所研究的方案和算法能适应大规模流数据的实时性、快速性和无限性,研究内容较先进,研究成果具有一定的理论价值和较好的实用性,可用于电子商务、互联网等拥有流数据的应用场景。
[Abstract]:With the rapid development and application of network and sensor technology, more and more stream data are being generated. Stream data mining is a kind of data processing technology which can effectively mine valuable knowledge from large scale, fast arriving and heterogeneous data sources. This paper focuses on the classification mining algorithm for stream data, aiming at improving the efficiency and accuracy of stream data classification mining. It not only studies the improvement of the algorithm itself, but also studies the distributed parallelization of the algorithm based on the stream data processing platform Storm. In order to improve the efficiency of classifying and mining real-time online stream data, the fast decision tree algorithm (VFDT) is deployed to the stream data computing platform (Storm), and a distributed parallelization scheme based on Storm is designed for VFDT algorithm. Through the correct design of Spout/Bolt in Topology to realize the function of each module, by setting several Task for classification Bolt to realize the parallelization of classification module, using the memory database Redis to realize the effective connection of module and the preservation of decision tree; The message middleware Kafka is used to improve the tolerance of algorithm convection data burst. The implementation and test results of VFDT algorithm based on this scheme show that the time efficiency of VFDT algorithm in Storm cluster environment is significantly higher than that in single machine environment, and the classification efficiency can be further improved by reasonably setting the Task of classification Bolt. Aiming at high dimensional data sets, aiming at further improving the time efficiency of online data classification model, the vertical parallelization of VFDT algorithm is implemented, and a fast decision tree algorithm, Vertical Parallelism Very Fast Decision tree algorithm, is designed. The algorithm parallelizes the calculation of the attribute information gain of the VFDT algorithm to improve the efficiency of sample processing. On this basis, by deploying VPVFDT to the Storm platform, the processing efficiency of the algorithm is further improved and the expansibility of the algorithm is also enhanced. The experimental results show that the VPVFDT algorithm can improve the processing efficiency of high-dimensional training samples in Storm cluster environment. In order to improve the classification accuracy of VFDT algorithm, the idea of stochastic forest algorithm is integrated into VFDT algorithm. A fast decision tree algorithm based on random forest, Random Forest Very Fast Decision tree algorithm named Random Forest Very Fast Decision tree, is proposed to establish classifier model by using the decision tree construction standard of random forest. The sliding window technique is used to satisfy the unboundedness of the stream data and to avoid the delay and data loss in the execution of the algorithm. Simulation experiments based on Storm platform verify the advantages of RFVFDT algorithm in classification accuracy and scalability. The scheme and algorithm studied in this paper can adapt to the real-time, fast and infinity of large-scale stream data, and the research content is advanced. The research results have certain theoretical value and good practicability, and can be used in electronic commerce. Application scenarios with streaming data, such as the Internet.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期
2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期
3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期
4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期
5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期
6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期
7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期
8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期
9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期
10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期
相关会议论文 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相关重要报纸文章 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
相关博士学位论文 前10条
1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
5 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年
6 雷雨;面向考试时间表问题的启发式进化算法研究[D];西安电子科技大学;2015年
7 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年
8 周雷;基于图结构的目标检测与分割算法研究[D];上海交通大学;2014年
9 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
10 蒋亦樟;多视角和迁移学习识别方法和智能建模研究[D];江南大学;2015年
相关硕士学位论文 前10条
1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年
2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年
3 叶一舟;红外弱小目标检测算法研究[D];上海交通大学;2015年
4 王继重;基于Hadoop和Mahout的K-Means算法设计与实现[D];大连海事大学;2016年
5 何静;遥感图像的快速压缩算法研究[D];北京交通大学;2016年
6 章华燕;钢轨擦伤检测算法研究[D];北京交通大学;2016年
7 王一博;MODIS地震热异常的数据处理与算法研究[D];中国石油大学(华东);2014年
8 成鑫;基于组合优化问题的多目标模因算法的研究[D];南京航空航天大学;2015年
9 傅致晖;基于协同分割的视频目标分割算法研究[D];上海交通大学;2015年
10 张媛;运动车辆检测与跟踪算法的研究与实现[D];大连海事大学;2016年
,本文编号:1832681
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1832681.html