基于CUDA平台的C4.5算法研究
发布时间:2021-01-26 13:03
21世纪是信息爆炸的时代,如何有效利用已有信息和数据发现规律,无疑成为重要课题。当前许多公司或企业的数据库中存储有海量数据,如餐饮业的顾客消费记录、顾客登记记录;网络运营商的客户通话和短信记录;大型超市的销售记录等等,从这些海量数据中发现规律,进而指导决策者进行决策就是数据挖掘的任务。进行数据挖掘,选取适当的数据挖掘算法是必要的。数据挖掘算法有很多类别,主要包括关联规则分析、聚类分析、分类分析等。关联规则算法中最经典的莫过于apriori算法,本文在apriori算法的基础上讨论了FP-growth算法,并给出了FP-growth算法的并行计算思路;聚类分析算法部分重点介绍了K-MEANS算法及其并行处理思想;分类分析中决策树算法是比较重要的,本文重点讨论了C4.5决策树算法,介绍了算法中测试属性的选择、包含未知属性值样本的处理、窗口机制、离散属性值分组、决策树剪枝等问题。在详细讨论该算法的基础上给出了其并行处理思路。有了并行处理思路,本文借助于NVIDIA公司推出的CUDA平台实现了C4.5算法的并行化。CUDA平台是实现GPU通用计算的平台,使用扩展的C语言进行编程,编译器为nvc...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
C4.5和C5.0分别对三个数据集产生规则集
Sleep income forest图 1.2 C4.5 和 C5.0 分别对三个数据集产生决策树上图再一次表明了 C5.0 的效率。其余不再赘述。可见决策树领域的算法取得很大成果。但 C5.0 效率的提升靠的是一些技术的改进,算法的改进性方面增加了数据类型,增加了属性间的关联。但如果数据集继续增大要考虑并行执行,并不是单单靠改进算法就能达到满意效果的。这正是的内容。1.3 研究思路及创新点鉴于当今企业级数据挖掘应用涉及的数据量是巨大的,算法的执行时间形的瓶颈。CUDA(Compute Unified Device Architecture)平台是显卡厂商 N的运算平台,其解放了 GPU 的计算能力,使我们可以用 C 高级语言直接进行 GPU 通用计算[7]。目前,主流计算机中的处理器主要是中央处理器 CPU 和图形处理器 G
(a) CPU (b)GPU图 1.3 CPU 与 GPU 晶体管的使用游戏市场和军事视景仿真需求的牵引,GPU 性能提高速度很快。最近GPU 的性能每一年就可以翻倍,大大超过了 CPU 遵照摩尔定律(每 1能翻倍)的发展速度。为了实现更逼真的图形效果,GPU 支持越来越复,其可编程性和功能都大大扩展了。目前,主流 GPU 的单精度浮点处理达到了同时期 CPU 的 10 倍左右,而其外部存储器带宽则是 CPU 的 5 倍构上,目前的主流 GPU 采用了统一架构单元,并且实现了细粒度的线程大大扩展了应用范围。2006 年,随着支持 DirectX 10 的 GPU 的发布, 的通用计算(General Purpose GPU,GPGPU)的普及条件成熟了。N于 2007 年正式发布的 CUDA(Compute Unified Device Architecture,计算架构)是第一种不需借助图形学 API 就可以使用类 C 语言进行通用计算境和软件体系[8]。与以往的传统 GPGPU 开发方式相比,CUDA 有十分显。经过两年多的发展,CUDA 与支持 CUDA 的 GPU 在性能上有显著提也在不断完善。
【参考文献】:
期刊论文
[1]基于KNN和RVM的分类方法——KNN-RVM分类器[J]. 张磊,刘建伟,罗雄麟. 模式识别与人工智能. 2010(03)
[2]基于GPU的串匹配算法研究[J]. 张庆丹,戴正华,冯圣中,孙凝晖. 计算机应用. 2006(07)
[3]基于FP-tree的最大频繁模式挖掘算法[J]. 冯志新,钟诚. 计算机工程. 2004(11)
[4]基于遗传算法的智能组卷系统数据库结构的研究[J]. 毛秉毅. 计算机工程与应用. 2003(06)
[5]快速更新频繁项集[J]. 朱玉全,孙志挥,赵传申. 计算机研究与发展. 2003(01)
[6]关联规则挖掘技术及发展动向[J]. 朱绍文,王泉德,黄浩,彭清涛,陆玉昌. 计算机工程. 2000(09)
[7]关于统计学习理论与支持向量机[J]. 张学工. 自动化学报. 2000(01)
[8]CART-分类与回归树方法介绍[J]. 张松林. 火山地质与矿产. 1997(01)
本文编号:3001161
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
C4.5和C5.0分别对三个数据集产生规则集
Sleep income forest图 1.2 C4.5 和 C5.0 分别对三个数据集产生决策树上图再一次表明了 C5.0 的效率。其余不再赘述。可见决策树领域的算法取得很大成果。但 C5.0 效率的提升靠的是一些技术的改进,算法的改进性方面增加了数据类型,增加了属性间的关联。但如果数据集继续增大要考虑并行执行,并不是单单靠改进算法就能达到满意效果的。这正是的内容。1.3 研究思路及创新点鉴于当今企业级数据挖掘应用涉及的数据量是巨大的,算法的执行时间形的瓶颈。CUDA(Compute Unified Device Architecture)平台是显卡厂商 N的运算平台,其解放了 GPU 的计算能力,使我们可以用 C 高级语言直接进行 GPU 通用计算[7]。目前,主流计算机中的处理器主要是中央处理器 CPU 和图形处理器 G
(a) CPU (b)GPU图 1.3 CPU 与 GPU 晶体管的使用游戏市场和军事视景仿真需求的牵引,GPU 性能提高速度很快。最近GPU 的性能每一年就可以翻倍,大大超过了 CPU 遵照摩尔定律(每 1能翻倍)的发展速度。为了实现更逼真的图形效果,GPU 支持越来越复,其可编程性和功能都大大扩展了。目前,主流 GPU 的单精度浮点处理达到了同时期 CPU 的 10 倍左右,而其外部存储器带宽则是 CPU 的 5 倍构上,目前的主流 GPU 采用了统一架构单元,并且实现了细粒度的线程大大扩展了应用范围。2006 年,随着支持 DirectX 10 的 GPU 的发布, 的通用计算(General Purpose GPU,GPGPU)的普及条件成熟了。N于 2007 年正式发布的 CUDA(Compute Unified Device Architecture,计算架构)是第一种不需借助图形学 API 就可以使用类 C 语言进行通用计算境和软件体系[8]。与以往的传统 GPGPU 开发方式相比,CUDA 有十分显。经过两年多的发展,CUDA 与支持 CUDA 的 GPU 在性能上有显著提也在不断完善。
【参考文献】:
期刊论文
[1]基于KNN和RVM的分类方法——KNN-RVM分类器[J]. 张磊,刘建伟,罗雄麟. 模式识别与人工智能. 2010(03)
[2]基于GPU的串匹配算法研究[J]. 张庆丹,戴正华,冯圣中,孙凝晖. 计算机应用. 2006(07)
[3]基于FP-tree的最大频繁模式挖掘算法[J]. 冯志新,钟诚. 计算机工程. 2004(11)
[4]基于遗传算法的智能组卷系统数据库结构的研究[J]. 毛秉毅. 计算机工程与应用. 2003(06)
[5]快速更新频繁项集[J]. 朱玉全,孙志挥,赵传申. 计算机研究与发展. 2003(01)
[6]关联规则挖掘技术及发展动向[J]. 朱绍文,王泉德,黄浩,彭清涛,陆玉昌. 计算机工程. 2000(09)
[7]关于统计学习理论与支持向量机[J]. 张学工. 自动化学报. 2000(01)
[8]CART-分类与回归树方法介绍[J]. 张松林. 火山地质与矿产. 1997(01)
本文编号:3001161
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3001161.html