关联规则挖掘算法的并行化及应用研究
发布时间:2021-04-08 10:26
近年来,随着经济和技术的迅猛发展,数据量呈现指数级别的爆炸式增长。面对海量的数据,从中获取有价值的关键信息成为了难题。数据挖掘技术为解决这一问题提供了有效途径,而如何进一步提高数据挖掘算法自身及其在各领域的应用效率已成为相关领域的热门课题。关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系。Apriori算法是最具有代表性的用于挖掘关联规则的算法,但是在产生候选项集和计算项集支持度的过程中I/O负载很大,时效性需要进一步改进。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架?本文以提高强关联规则挖掘的准确性为目标,通过引入兴趣度对Apriori算法做了改进,改进算法命名为I-Apriori(Improved Apriori);以提高强关联规则挖掘的时效性为目标,设计了I-Apriori算法基于Spark的并行化方案?该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点基于各局部候选项集产生全局候选项集和全局频繁项集...
【文章来源】:南京邮电大学江苏省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
Hadoop生态系统
南京邮电大学专业学位硕士研究生学位论文 第二章 相关技术概述与分析整合了原本需要不同分布式平台处理的计算,提供了更多能够满足不同应用场景的高级组件。图 2.2 为 Spark 在伯克利的数据分析软件栈 BDAS 的位置。可以看出,Spark 在架构上包括内核和 4 个子模块 Spark SQL、Spark Streaming、Mlib 和GraphX,专注于数据的计算,数据存储往往还是由 Hadoop 分布式系统 HDFS 承担。
图 2.3 Spark 的运行架构当一个任务被用户提交时,Driver 节点会创建一个 SparkContext,它会向资源管理器申资源;资源分配完毕后,Spark 会启动 Worker 上负责执行具体任务的进程 Executor,并会任务分发给 Executor;计算完成后,Worker 会将结果发回 Driver,然后释放相关资源 Spa的 Executor 利用多线程来执行具体任务,减少任务的启动开销;其中有一个 BlockManag存储模块,会将内存和磁盘共同作为存储设备,当进行多轮迭代计算时(Apriori 算法是典型例子),可以将中间结果存到这个存储模块里,下次需要时,就可以直接读该存储模块里的据,而不需要对 HDFS 等文件系统读写,从而大大的减少了 I/O 的开销 2.5 本章小结本章首先对数据挖掘的概念、基本步骤、主要任务和具体算法进行概述,重点介绍了联规则挖掘的作用以及目前的应用状况。紧接着对分布式计算框架 Hadoop 和 Spark 进行了
【参考文献】:
期刊论文
[1]大数据时代必知[J]. 廖玍,应斌武,关明,张本. 检验医学与临床. 2018(22)
[2]健康类APP界面的数据可视化研究[J]. 兰欣蔚,江明. 大众文艺. 2018(21)
[3]海量数据下基于Hadoop的分布式FP-Growth算法[J]. 朱颢东,薛校博,李红婵,孟颍辉. 轻工学报. 2018(05)
[4]云计算环境下的大数据特征挖掘技术研究[J]. 张文,苏玉. 现代电子技术. 2018(20)
[5]基于云平台Hadoop的中医数据挖掘系统设计与实现[J]. 王倩,石艳敏,史春晖,朱习军. 计算机应用与软件. 2018(10)
[6]大数据时代图书馆嵌入式知识发现情报分析服务研究[J]. 姜璐. 农业图书情报学刊. 2018(08)
[7]大数据时代的企业档案管理初探[J]. 杜惠芳. 办公室业务. 2018(13)
[8]大数据下智慧医疗在社区糖尿病一级预防中的价值[J]. 李蕊,王雪恒,王基容,王艳萍,徐靖. 中国临床保健杂志. 2018(03)
[9]Web平台前端开发设计与实现[J]. 朱瑞出. 中国管理信息化. 2018(11)
[10]基于离群点检测和分类的软测量方法[J]. 王春鹏. 山东化工. 2018(09)
硕士论文
[1]离群点挖掘在网购中的应用研究[D]. 董振涛.西安石油大学 2018
[2]基于Spark的用户行为分析系统的设计与实现[D]. 殷乐.战略支援部队信息工程大学 2018
[3]人寿保险客户分类及精准营销研究[D]. 吴丹.华南理工大学 2018
[4]健康大数据预处理方法研究与实现[D]. 陈永红.电子科技大学 2018
[5]基于Hadoop的医疗辅助诊断系统的设计与实现[D]. 周羿阳.东华大学 2016
[6]基于Hadoop的推荐系统的设计与实现[D]. 邓雄杰.华南理工大学 2013
[7]基于Hadoop的并行关联规则算法研究[D]. 余楚礼.天津理工大学 2011
本文编号:3125379
【文章来源】:南京邮电大学江苏省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
Hadoop生态系统
南京邮电大学专业学位硕士研究生学位论文 第二章 相关技术概述与分析整合了原本需要不同分布式平台处理的计算,提供了更多能够满足不同应用场景的高级组件。图 2.2 为 Spark 在伯克利的数据分析软件栈 BDAS 的位置。可以看出,Spark 在架构上包括内核和 4 个子模块 Spark SQL、Spark Streaming、Mlib 和GraphX,专注于数据的计算,数据存储往往还是由 Hadoop 分布式系统 HDFS 承担。
图 2.3 Spark 的运行架构当一个任务被用户提交时,Driver 节点会创建一个 SparkContext,它会向资源管理器申资源;资源分配完毕后,Spark 会启动 Worker 上负责执行具体任务的进程 Executor,并会任务分发给 Executor;计算完成后,Worker 会将结果发回 Driver,然后释放相关资源 Spa的 Executor 利用多线程来执行具体任务,减少任务的启动开销;其中有一个 BlockManag存储模块,会将内存和磁盘共同作为存储设备,当进行多轮迭代计算时(Apriori 算法是典型例子),可以将中间结果存到这个存储模块里,下次需要时,就可以直接读该存储模块里的据,而不需要对 HDFS 等文件系统读写,从而大大的减少了 I/O 的开销 2.5 本章小结本章首先对数据挖掘的概念、基本步骤、主要任务和具体算法进行概述,重点介绍了联规则挖掘的作用以及目前的应用状况。紧接着对分布式计算框架 Hadoop 和 Spark 进行了
【参考文献】:
期刊论文
[1]大数据时代必知[J]. 廖玍,应斌武,关明,张本. 检验医学与临床. 2018(22)
[2]健康类APP界面的数据可视化研究[J]. 兰欣蔚,江明. 大众文艺. 2018(21)
[3]海量数据下基于Hadoop的分布式FP-Growth算法[J]. 朱颢东,薛校博,李红婵,孟颍辉. 轻工学报. 2018(05)
[4]云计算环境下的大数据特征挖掘技术研究[J]. 张文,苏玉. 现代电子技术. 2018(20)
[5]基于云平台Hadoop的中医数据挖掘系统设计与实现[J]. 王倩,石艳敏,史春晖,朱习军. 计算机应用与软件. 2018(10)
[6]大数据时代图书馆嵌入式知识发现情报分析服务研究[J]. 姜璐. 农业图书情报学刊. 2018(08)
[7]大数据时代的企业档案管理初探[J]. 杜惠芳. 办公室业务. 2018(13)
[8]大数据下智慧医疗在社区糖尿病一级预防中的价值[J]. 李蕊,王雪恒,王基容,王艳萍,徐靖. 中国临床保健杂志. 2018(03)
[9]Web平台前端开发设计与实现[J]. 朱瑞出. 中国管理信息化. 2018(11)
[10]基于离群点检测和分类的软测量方法[J]. 王春鹏. 山东化工. 2018(09)
硕士论文
[1]离群点挖掘在网购中的应用研究[D]. 董振涛.西安石油大学 2018
[2]基于Spark的用户行为分析系统的设计与实现[D]. 殷乐.战略支援部队信息工程大学 2018
[3]人寿保险客户分类及精准营销研究[D]. 吴丹.华南理工大学 2018
[4]健康大数据预处理方法研究与实现[D]. 陈永红.电子科技大学 2018
[5]基于Hadoop的医疗辅助诊断系统的设计与实现[D]. 周羿阳.东华大学 2016
[6]基于Hadoop的推荐系统的设计与实现[D]. 邓雄杰.华南理工大学 2013
[7]基于Hadoop的并行关联规则算法研究[D]. 余楚礼.天津理工大学 2011
本文编号:3125379
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3125379.html