基于hadoop与加权模型的FP-growth算法的优化研究
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2-1频繁模式树FP-tree第三步,从FP-tree的底端自下而上进行挖掘,为项头表中每个节点生成条
第二章相关理论及技术研究11第一步,对事务数据库D进行扫描,计算各项的支持度,将小于最小支持度的项剔除,剩余项按支持度降序排列,若支持度相同时按字母顺序排列,得到频繁1项集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事务集如表2-4第3列所示。第二步,创建....
图2-2Hadoop结构框架图
天津工业大学硕士学位论文14同的机器,然后Reduce函数将拆分并处理后的数据进行整合统计,输出最终结果。(3)Yarn。Yarn是Hadoop2.x中被引入的核心部件,它是Hadoop的资源管理系统。它可以理解为是一个“管理平台”,使Hadoop不仅可以支持MapReduce计....
图2-3MapReduce执行流程图
第二章相关理论及技术研究152.3.2并行计算框架MapReduceMapReduce是我们在进行大数据处理的时候经常要使用的计算模型,通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。MapReduce由两个关键性操作构成,即Map(映射)与Reduce(归....
图2-4WordCount案例MapReduce流程
天津工业大学硕士学位论文16(4)ShuffleShuffle是介于Map和Reduce过程中间的操作,它需要从所有Map任务输出的结果中筛选键值对,将具有相同key的<key,value>对组合在一起发送到同一个Reduce任务中作为输入。(5)化简ReduceReduce负责....
本文编号:3913929
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3913929.html