基于云计算的决策树挖掘算法研究
发布时间:2022-02-11 21:38
随着计算机技术、通信技术以及Internet技术的飞速发展,全球内的数据量呈现出爆炸式增长。如何在海量数据中提取隐含在其中的、有价值的信息成为当今数据挖掘领域面临的一大难题。云计算凭借其强大的运算能力和巨大的存储能力为解决海量数据挖掘领域的难题提供了全新的思路。Hadoop是当前应用最广泛的云计算平台,由Apache基金会参考Google云实现的云计算解决方案,具有成本低廉、高通用性、高可靠性和可伸缩性等优势。决策树算法是数据挖掘算法中最容易理解且应用最普遍的算法模型。但是传统的决策树算法是运行在单机下的,受到CPU和内存制约,仅适用于小规模数据集的处理。本文介绍了Hadoop云计算平台,并对其中的两大关键技术HDFS和MapReduce作了详细的论述。本文选择了决策树算法中的C4.5算法和SPRINT算法作为研究对象。首先,对C4.5算法进行了改进,提出了选用两层信息增益率的新方法(D-C4.5算法),并对改进后的算法进行了并行化设计。同时,针对SPRINT算法中Gini指数存在的多值偏向问题,提出了计算两层Gini指数的新策略(D-SPRINT算法),并对该算法进行了并行化设计。为...
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题的研究背景和意义
1.2 研究现状
1.2.1 云计算研究现状
1.2.2 数据挖掘研究现状
1.3 论文的主要工作
1.4 论文组织结构
1.5 本章小结
第二章 Hadoop框架和数据挖掘算法研究
2.1 Hadoop简介
2.2 Hadoop关键技术
2.2.1 分布式文件系统HDFS
2.2.2 Hadoop的I/O操作
2.2.3 MapReduce编程模型
2.2.4 MapReduce的执行流程
2.3 实验平台的环境配置和搭建
2.3.1 实验平台的环境配置
2.3.2 实验平台的搭建
2.4 数据挖掘算法研究
2.4.1 数据挖掘算法简介
2.4.2 常见的数据挖掘方法
2.5 本章小结
第三章 HD-C4.5 算法的研究和实现
3.1 C4.5 算法简介
3.2 C4.5 算法基本思想
3.3 C4.5 算法的分析和改进
3.4 D-C4.5 算法的并行化设计和实现
3.4.1 D-C4.5 算法的并行化设计
3.4.2 D-C4.5 算法的并行化实现
3.5 HD-C4.5 算法的实验和分析
3.6 本章小结
第四章 HD-SPRINT算法的研究和实现
4.1 SPRINT算法简介
4.2 SPRINT算法的基本思想
4.3 SPRINT算法的分析和改进
4.4 D-SPRINT算法并行化
4.5 HD-SPRINT算法的实验和分析
4.6 本章小结
第五章 HD-CS算法的研究和实现
5.1 D-CS算法的研究和实现
5.1.1 D-CS算法的数据结构
5.1.2 D-CS算法的最佳分割属性计算方式
5.1.3 D-CS算法终止条件
5.2 D-CS算法的并行化
5.3 HD-CS算法的实验和分析
5.4 本章小结
第六章 总结与展望
6.1 本文工作总结
6.2 未来研究方向
参考文献
附录1 读硕士学位期间撰写的论文
附录2 读硕士学位期间参加的科研项目
致谢
本文编号:3620986
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题的研究背景和意义
1.2 研究现状
1.2.1 云计算研究现状
1.2.2 数据挖掘研究现状
1.3 论文的主要工作
1.4 论文组织结构
1.5 本章小结
第二章 Hadoop框架和数据挖掘算法研究
2.1 Hadoop简介
2.2 Hadoop关键技术
2.2.1 分布式文件系统HDFS
2.2.2 Hadoop的I/O操作
2.2.3 MapReduce编程模型
2.2.4 MapReduce的执行流程
2.3 实验平台的环境配置和搭建
2.3.1 实验平台的环境配置
2.3.2 实验平台的搭建
2.4 数据挖掘算法研究
2.4.1 数据挖掘算法简介
2.4.2 常见的数据挖掘方法
2.5 本章小结
第三章 HD-C4.5 算法的研究和实现
3.1 C4.5 算法简介
3.2 C4.5 算法基本思想
3.3 C4.5 算法的分析和改进
3.4 D-C4.5 算法的并行化设计和实现
3.4.1 D-C4.5 算法的并行化设计
3.4.2 D-C4.5 算法的并行化实现
3.5 HD-C4.5 算法的实验和分析
3.6 本章小结
第四章 HD-SPRINT算法的研究和实现
4.1 SPRINT算法简介
4.2 SPRINT算法的基本思想
4.3 SPRINT算法的分析和改进
4.4 D-SPRINT算法并行化
4.5 HD-SPRINT算法的实验和分析
4.6 本章小结
第五章 HD-CS算法的研究和实现
5.1 D-CS算法的研究和实现
5.1.1 D-CS算法的数据结构
5.1.2 D-CS算法的最佳分割属性计算方式
5.1.3 D-CS算法终止条件
5.2 D-CS算法的并行化
5.3 HD-CS算法的实验和分析
5.4 本章小结
第六章 总结与展望
6.1 本文工作总结
6.2 未来研究方向
参考文献
附录1 读硕士学位期间撰写的论文
附录2 读硕士学位期间参加的科研项目
致谢
本文编号:3620986
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3620986.html