大数据环境下的关联规则提取算法研究
本文关键词:大数据环境下的关联规则提取算法研究,由笔耕文化传播整理发布。
【摘要】:随着互联网、信息技术以及云计算的高速发展,当今社会已进入了海量数据的时代,进一步将大数据推生为IT产业又一次颠覆性的技术变革。不管是移动通信、电商金融还是物联网等各个领域,每天都会产生巨量的各种不同类型的数据。如何从这些庞大的、结构各异的、而又掺杂着大量噪声的数据中提取出隐含在其中的具有一定意义的知识或规则,正是关联规则提取的研究内容。在大数据环境下,选取什么样的平台工具或算法可以对数据进行快速的挖掘分析,看清数据的本质,找到其中的商机,是人们亟待解决的一个问题。针对蕴含关联规则提取问题,给出了一种新的关联规则生成形式——蕴含关联规则,提出了蕴含关联规则的提取方法。针对如何提取有效关联规则的问题,应用了蕴含强度作为规则提取的度量,提取出真正具有蕴含关系的规则,并且能够分析规则中所涉及的规则前件与规则后件相关性的正负。引入启发性信息,使得关联规则的提取更具有针对性,避免了大部分用户不感兴趣的、冗余的规则。实验结论证明该关联规则形式及算法的有效性及效率。在大数据环境下,针对FP-Growth算法无法将整棵FP-tree一次性加载到内存,很大程度上影响了FP-Growth算法效率的问题,提出了OPFP-Growth算法,在Hadoop平台应用MapReduce将传统的FP-Growth算法进行并行化。针对MapReduce并行算法的负载初始化不均衡及频繁项集约简的问题,引入了权重轮循负载均衡及频繁闭项集的方法。使得各个数据节点的数据分配及处理能力更趋于均衡,并减少了FP-tree在迭代的数据挖掘过程中输出冗余的中间结果。同时应用Hive对数据的存储结构进行相应的调整,提高了HDFS的空间利用率,实验验证了算法的有效性及效率。实验采用NCDC的气象数据,应用并行的OPFP-Growth算法到气象数据关联因素分析中,可以分析出气象信息中相关因素的关联性,为天气预报、防灾减灾提供决策依据。
【关键词】:关联规则 大数据 Hadoop OPFP-Growth Hive 气象分析
【学位授予单位】:辽宁工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-9
- 1 绪论9-13
- 1.1 论文的研究背景与选题意义9-10
- 1.2 国内外研究现状10-11
- 1.2.1 传统关联规则的研究现状10-11
- 1.2.2 大数据环境下的关联规则研究现状11
- 1.3 本文的主要工作11-12
- 1.4 论文的主要内容及结构安排12-13
- 2 分布式并行系统基础架构相关知识13-23
- 2.1 Hadoop简介13-15
- 2.2 分布式文件系统HDFS15-17
- 2.2.1 HDFS的体系结构15-17
- 2.2.2 HDFS的读写原理17
- 2.3 编程模型MapReduce17-19
- 2.3.1 MapReduce的体系结构17-18
- 2.3.2 MapReduce的工作流程18-19
- 2.4 机器学习类库Mahout19-20
- 2.5 数据仓库Hive20-21
- 2.6 Hadoop大数据处理架构21-22
- 2.7 本章小节22-23
- 3 关联规则相关算法研究23-35
- 3.1 关联规则23-24
- 3.2 Apriori算法24
- 3.2.1 Apriori算法的原理24
- 3.2.2 Apriori算法的分析24
- 3.3 蕴含关联规则提取算法24-32
- 3.3.1 蕴含关联规则26-28
- 3.3.2 蕴含关联规则的提取方法28-30
- 3.3.3 蕴含关联规则的应用30-32
- 3.4 PF-Growth算法32-34
- 3.4.1 PF-Growth算法原理32-34
- 3.4.2 FP-Growth算法的缺陷34
- 3.4.3 FP-Growth算法的并行化34
- 3.5 本章小结34-35
- 4 OPFP-Growth算法的研究与应用35-44
- 4.1 OPFP-Growth算法研究35-37
- 4.1.1 负载均衡35-36
- 4.1.2 引入频繁闭项集36
- 4.1.3 Hive分析优化36-37
- 4.2 OPFP-Growth算法流程37-39
- 4.3 OPFP-Growth算法的应用39-43
- 4.3.1 气象数据挖掘分析39-40
- 4.3.2 数据收集源40-41
- 4.3.3 数据预处理41-43
- 4.4 本章小结43-44
- 5 实验环境与结果44-55
- 5.1 Hadoop/Hive环境配置44-50
- 5.1.1 JDK的安装配置44-45
- 5.1.2 Hadoop的安装配置45-48
- 5.1.3 Hive的安装配置48-50
- 5.2 性能测试50-53
- 5.2.1 负载均衡50-52
- 5.2.2 执行时间52-53
- 5.3 结果分析53-54
- 5.4 本章小结54-55
- 6 结论和展望55-56
- 6.1 结论55
- 6.2 展望55-56
- 参考文献56-58
- 攻读硕士期间发表学术论文情况58-59
- 致谢59
【相似文献】
中国期刊全文数据库 前10条
1 肖基毅,邹腊梅,刘丰;频繁项集挖掘算法研究[J];情报杂志;2005年11期
2 蔡进;薛永生;张东站;;基于分区分类法快速更新频繁项集[J];计算机工程与应用;2007年09期
3 胡学钢;徐勇;王德兴;张晶;;基于多剪枝格的频繁项集表示与挖掘[J];合肥工业大学学报(自然科学版);2007年04期
4 胡学钢;刘卫;王德兴;;基于剪枝概念格模型的频繁项集表示及挖掘[J];合肥工业大学学报(自然科学版);2007年09期
5 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[J];微电子学与计算机;2008年10期
6 李彦伟;戴月明;王金鑫;;一种挖掘加权频繁项集的改进算法[J];计算机工程与应用;2011年15期
7 陈立潮,张建华,刘玉树;提高频繁项集挖掘算法效率的方法研究[J];计算机工程与应用;2002年10期
8 朱玉全,孙志挥,赵传申;快速更新频繁项集[J];计算机研究与发展;2003年01期
9 宋宝莉;张帮华;何炎祥;朱骁峰;;带有多个可转化约束的频繁项集挖掘算法[J];计算机科学;2003年12期
10 王自强,冯博琴;频繁项集的简洁表示方法研究[J];系统工程理论与实践;2004年07期
中国重要会议论文全文数据库 前10条
1 栾鸾;李云;盛艳;;多关系频繁项集的并行获取[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 邓传国;;频繁项集挖掘与学生素质测评应用研究[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 邹远娅;周皓峰;王晨;汪卫;施伯乐;;FSC——利用频繁项集挖掘估算视图大小[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 杨晓雪;衡红军;;一种对XML数据进行关联规则挖掘的方法研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 王立俊;基于多重最小支持度的氋效用频繁项集挖掘算法研究[D];广西大学;2015年
2 陈国俊;基于Hadoop的云存储系统的研究与应用[D];电子科技大学;2014年
3 尹艳红;基于Apriori算法的增量式关联规则控制研究[D];大连理工大学;2015年
4 田苗凤;大数据背景下并行动态关联规则挖掘研究[D];兰州交通大学;2015年
5 李雪迪;基于本体论的精细化数据分析[D];南京邮电大学;2015年
6 许静文;基于模糊等价类的频繁项集精简表示算法研究[D];合肥工业大学;2015年
7 王大伟;大数据环境下的关联规则提取算法研究[D];辽宁工业大学;2016年
8 郭静;最大和最长频繁项集增量更新研究[D];燕山大学;2010年
9 刘卫;基于剪枝概念格模型的频繁项集表示及挖掘研究[D];合肥工业大学;2007年
10 王洪波;基于矩阵的频繁项集挖掘算法研究[D];兰州大学;2007年
本文关键词:大数据环境下的关联规则提取算法研究,,由笔耕文化传播整理发布。
本文编号:329505
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/329505.html