面向时空数据的挖掘算法研究
本文关键词:面向时空数据的挖掘算法研究 出处:《北方工业大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 大数据 高效用项集挖掘 MapReduce 数据挖掘 数据可视化
【摘要】:随着社会的进步,各行业产生的数据量日益增大,如何能快速有效的利用这些数据,发现其中价值,变得尤为重要。高效用项集挖掘作为数据挖掘的一个分支,在许多领域得到应用。但由于大数据具有数据量大、种类多、价值密度低、时效高等特性,这就要求算法具有较高的时空效率。本文提出了基于MapReduce的高效用项集挖掘算法(HUIMR)。算法基于MapReduce框架,能够适应大数据环境。算法分为计数和挖掘两个阶段,在计数阶段,使用MapReduce并行发现高事务加权效用项目表;在挖掘阶段,定义了高事务加权效用树,再基于模式增长策略,使用MapReduce并行挖掘高效用项集。基于效用值和已有标签的历史数据,本文提出了一种基于效用的并行化随机森林算法。由于随机森林是由若干棵决策树构成的,因此并行化随机森林算法主要包括并行化建立决策树和调用决策树这两步并行化流程。最后通过汇总各个决策树的情况,来得到最终的结果。通过实验证明,该算法在处理大规模数据集效果良好。论文设计实现了一套基于高效用项集挖掘的交通预测可视化系统。该系统以路口的交通数据为基础,通过阈值判定、删除空值等操作,对数据进行预处理,接着将数据上传到分布式文件系统,通过利用HUIMR算法,得到高效用项集。基于此项集进而进行预测,并将历史交通数据等信息进行可视化展示。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【参考文献】
中国期刊全文数据库 前9条
1 施亮;钱雪忠;;基于MapReduce的约束频繁项集挖掘算法[J];计算机工程与设计;2015年10期
2 陆化普;孙智源;屈闻聪;;大数据及其在城市智能交通系统中的应用综述[J];交通运输系统工程与信息;2015年05期
3 宋威;吉红蕾;李晋宏;;一种高效用项集并行挖掘算法[J];计算机工程与科学;2015年03期
4 刘智慧;张泉灵;;大数据技术研究综述[J];浙江大学学报(工学版);2014年06期
5 姚登举;杨静;詹晓娟;;基于随机森林的特征选择算法[J];吉林大学学报(工学版);2014年01期
6 何波;;基于频繁模式树的分布式关联规则挖掘算法[J];控制与决策;2012年04期
7 陈光鹏;杨育彬;高阳;商琳;;一种基于MapReduce的频繁闭项集挖掘算法[J];模式识别与人工智能;2012年02期
8 钱雪忠;惠亮;;关联规则中改进FP-tree的最大频繁模式挖掘算法[J];计算机工程与设计;2010年21期
9 栾丽华,吉根林;决策树分类技术研究[J];计算机工程;2004年09期
中国硕士学位论文全文数据库 前5条
1 晏承玲;基于模糊理论的城市道路交通状态判别研究[D];重庆大学;2013年
2 蔡林霖;随机森林的模型选择及其并行化方法[D];哈尔滨工业大学;2013年
3 朱振兴;城市交通数据融合与交通态势处理方法的研究[D];山东大学;2011年
4 李军华;云计算及若干数据挖掘算法的MapReduce化研究[D];电子科技大学;2010年
5 李洪波;决策森林的子空间选择和集成优化[D];哈尔滨工业大学;2009年
,本文编号:1313797
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1313797.html