基于GA的CART决策树改进算法与应用

发布时间:2021-04-28 15:57
  自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着... 

【文章来源】:广州大学广东省

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究现状
    1.3 本论文主要研究内容
    1.4 本章总结
第二章 数据挖掘概述
    2.1 数据挖掘的相关理论
    2.2 数据挖掘常见的分类算法
        2.2.1 神经网络方法
        2.2.2 粗糙集理论方法
        2.2.3 聚类
        2.2.4 关联规则
        2.2.5 统计分析方法
        2.2.6 回归分析
        2.2.7 决策树方法
    2.3 本章总结
第三章 决策树分类技术
    3.1 决策树的定义和结构
    3.2 决策树的构造过程
    3.3 常用的决策树算法简介
        3.3.1 ID3算法简介
        3.3.2 C4.5算法
        3.3.3 CART算法
        3.3.4 决策树的应用
    3.4 本章总结
第四章 基于遗传算法的CART优化的研究
    4.1 引言
    4.2 遗传算法介绍
    4.3 基于遗传算法的CART算法的研究分析
        4.3.1 基于遗传算法的CART算法的基本原理
        4.3.2 基于遗传算法的CART算法的基本步骤
        4.3.3 基于遗传算法的CART算法的实现
    4.4 算法验证
        4.4.1 数据说明
        4.4.2 基于CART算法的决策树分类
        4.4.3 基于上层遗传算法优化分类规则的CART分类
        4.4.4 基于双层遗传算法优化CART算法的过程
    4.5 实验结果
第五章 总结和展望
参考文献
附录:算法用到的相关函数介绍
致谢


【参考文献】:
期刊论文
[1]数据挖掘经典分类聚类算法的研究综述[J]. 姚奇峰,杨连贺.  现代信息科技. 2019(24)
[2]一种改进的ID3决策算法及其应用[J]. 圣文顺,孙艳文.  计算机与数字工程. 2019(12)
[3]基于C4.5决策树分类算法的改进与应用[J]. 李春生,焦海涛,刘澎,刘小刚.  计算机技术与发展. 2020(05)
[4]神经网络规则优化建模与应用[J]. 陈丽芳,冯力静,刘保相.  计算机工程与科学. 2019(12)
[5]基于关联规则的Apriori改进算法的研究综述[J]. 彭新宇,李丛煊,郭金盈,赫彦文.  电脑知识与技术. 2019(34)
[6]融合GINI指数的ID3改进算法[J]. 罗计根,杜建强,聂斌,李欢,贺佳.  南昌大学学报(工科版). 2019(01)
[7]决策树ID3新属性选择方法[J]. 王子京,刘毓.  现代电子技术. 2018(23)
[8]梯度优化决策树的集成学习及其应用[J]. 王延斌,武优西,刘洪普.  计算机科学. 2018(S2)
[9]决策树C4.5算法改进与应用[J]. 陈杰,邬春学.  软件导刊. 2018(10)
[10]基于粗糙集理论与CAIM准则的C4.5改进算法[J]. 于宏涛,贾宇波.  计算机系统应用. 2018(07)

硕士论文
[1]数据挖掘算法的改进研究[D]. 胡昕韵.安徽大学 2019
[2]基于BP神经网络的分类器改进算法研究与应用[D]. 李圆满.中国地质大学(北京) 2019
[3]并行频繁项集挖掘算法研究[D]. 何镇宏.四川师范大学 2018



本文编号:3165760

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3165760.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d312***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com