当前位置:主页 > 科技论文 > 软件论文 >

基于hadoop与加权模型的FP-growth算法的优化研究

发布时间:2024-02-28 19:40
  数据挖掘是以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称为知识发现,而关联规则挖掘是数据挖掘中的一个重要课题,从数据背后发现事物之间存在的关联。如今,关联规则挖掘技术已经广泛应用于金融、互联网、医疗等众多领域,学者们对于关联规则挖掘算法的研究热情更是日益高涨。传统的关联规则挖掘算法都默认事物具有相同的重要性且分布均匀,但是在实际的生产和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加权关联规则挖掘算法进行研究。本文在引进加权模型的条件下,主要针对经典的FP-growth算法进行了改进,一方面是采用有序FP树来代替传统FP树,进而减少存储空间的利用;另一方面是采用二维列表记录项的加权支持度,省去了在生成加权条件FP子树时对条件模式基的第一次遍历。基于关联规则挖掘中要处理的数据量越来越大的情况,Hadoop分布式系统架构应运而生,海量数据的处理不再是难题。本文采用Hadoop中的Map Reduce并行计算框架来处理数据集,并提出均衡化分组策略,避免了数据倾斜的产生,分布式数据处理降低了时间复杂度,能够高效地进行海量数据的关联规则挖掘。本文研究了基于ha...

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

图2-1频繁模式树FP-tree第三步,从FP-tree的底端自下而上进行挖掘,为项头表中每个节点生成条

图2-1频繁模式树FP-tree第三步,从FP-tree的底端自下而上进行挖掘,为项头表中每个节点生成条

第二章相关理论及技术研究11第一步,对事务数据库D进行扫描,计算各项的支持度,将小于最小支持度的项剔除,剩余项按支持度降序排列,若支持度相同时按字母顺序排列,得到频繁1项集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事务集如表2-4第3列所示。第二步,创建....


图2-2Hadoop结构框架图

图2-2Hadoop结构框架图

天津工业大学硕士学位论文14同的机器,然后Reduce函数将拆分并处理后的数据进行整合统计,输出最终结果。(3)Yarn。Yarn是Hadoop2.x中被引入的核心部件,它是Hadoop的资源管理系统。它可以理解为是一个“管理平台”,使Hadoop不仅可以支持MapReduce计....


图2-3MapReduce执行流程图

图2-3MapReduce执行流程图

第二章相关理论及技术研究152.3.2并行计算框架MapReduceMapReduce是我们在进行大数据处理的时候经常要使用的计算模型,通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。MapReduce由两个关键性操作构成,即Map(映射)与Reduce(归....


图2-4WordCount案例MapReduce流程

图2-4WordCount案例MapReduce流程

天津工业大学硕士学位论文16(4)ShuffleShuffle是介于Map和Reduce过程中间的操作,它需要从所有Map任务输出的结果中筛选键值对,将具有相同key的<key,value>对组合在一起发送到同一个Reduce任务中作为输入。(5)化简ReduceReduce负责....



本文编号:3913929

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3913929.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3546f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com