当前位置:主页 > 科技论文 > 软件论文 >

基于K-means的改进C4.5算法研究

发布时间:2021-08-13 07:15
  随着大数据时代的到来,数据所蕴藏的价值逐渐凸显,各行业多年来所累积的数据都具有巨大的挖掘潜力,于是数据挖掘技术飞速发展,每一个精准的数据分析结果都能带来巨大的行业收益。为了能更快更准确地得到数据分析的结果,数据挖掘算法就成为了我们的重点研究对象。针对传统C4.5算法面对大量多维连续型属性值时,传统离散化方法易造成分类准确度不高、算法运行效率低下的问题,本文提出了两种连续型属性值离散化的方法,第一种是十等分离散化方法,将连续型属性值进行排序后取十等分点处的值作为候选分裂点进行计算;另一种是由K-means算法进行连续属性数据离散化的方式,首先通过将无特征标志的连续型数据与对应类标号结合生成数据子集,通过K-means算法生成若干簇,再取簇的近似边界点作为连续型属性的候选分类点进行信息增益率的计算。实验结果表明,与传统C4.5算法相比,在十等分离散化模式下的C4.5算法具有更高的执行效率,基于K-means算法的离散化模式使C4.5决策树模型拥有更高的分类准确度。 

【文章来源】:内蒙古农业大学内蒙古自治区

【文章页数】:54 页

【学位级别】:硕士

【部分图文】:

基于K-means的改进C4.5算法研究


图2?ID3算法流程图??Fig.2?ID3?algorithm?flow?chart??总体说来ID3算法是一个简单易用,可以支持多分类的决策树算法,但是也由??

连续型属性,连续属性离散化,算法流程图,算法


?个分裂点都将数据集划分成更小的数据子集,参与计算的属性、属性值越来越少,??肖.到每个子集的数据元组都属于同一类别,则停止分裂,决策树也建立完成。??下图3为C4.5决策树算法的算法流程图,我们首先需要做的是将已经进行清洗??整理的训练数据导入,并创建一个初始节点N。若输入的待处理数据都在同一类别??屮,那么我们就可以将N作为一个叶子节点,并将这个类别最为最后的计算结果返??丨"丨。若待处理数据不在同一类别,那么我们就进行下一步的判断,即判断输入的数??据是否为连续型数据,若是连续型数据,那么就要进行离散化处理,经过离散化处??理的数据才能进行信息熵、信息增益等数值的计算。非连续型属性值和经过离散化??处理的连续型属性值经过信息增益率的计算后,选择增益率最高的点作为分裂点,??这个分裂点将数据集分为两个部分,构成2个分裂子集,进行分类类别的判断,若??经过分裂后的数据集属于同一类,那么就返回节点N作为叶子节点,并标记为对应??的类别。若输出的数据集并不是同一类

流程图,离散化方法,流程图,算法


分别可将属性A划分为两个部分,将这些点作为候选分裂点进行信息增益率的计??算,选择增益率最大的点作为该属性的最佳分裂点。??下图4为原始C4.5算法的离散化方法流程图,描述了原始C4.5算法的离散化??处理步骤。??(开始)??将此列属性值升序排序???????计算两两相邻的属性值的中点作为候选分裂???I??? ̄计算候选划分点处的信息增益????J???选择信息增益率最高¥点作为决策树分裂点??(结k?)??图4?C4.?5算法离散化方法流程图??Fig.4?C4.5?algorithm?flow?chart?of?discretization??最后,为了解决ID3算法对噪声数据敏感及与数据集过拟合的问题,C4.5算法??引入了?“剪枝”操作,剪枝方法共分为两种:先剪枝与后剪枝。??先剪枝顾名思义就是指在决策树模型建立之前预定义分类模型建立规则,使决??策树在生长到一定阈值时停止生长。有时,通过限制最大增益的上限,使信息增益??不超过最大增益阈值时,停止生长:还可以对决策树的深度加以限制,从而抑制决??策树的规模;最后,限制结点的分支数目同样可以起到限制决策树规模的目的。但??是先剪枝的方法不易进行,对于不同的数据集,提前设定的阈值不尽相同,对于每??一个数据都需要找到恰当的阈值参数

【参考文献】:
期刊论文
[1]决策树C4.5算法的改进与分析[J]. 安葳鹏,尚家泽.  计算机工程与应用. 2019(12)
[2]决策树C4.5算法改进与应用[J]. 陈杰,邬春学.  软件导刊. 2018(10)
[3]基于粗糙集理论与CAIM准则的C4.5改进算法[J]. 于宏涛,贾宇波.  计算机系统应用. 2018(07)
[4]基于余弦相似度的改进C4.5决策树算法[J]. 夏修臣,王秀英.  计算机工程与设计. 2018(01)
[5]决策树C4.5算法的优化与应用[J]. 苗煜飞,张霄宏.  计算机工程与应用. 2015(13)
[6]应用简易决策树模型在骨科择期手术患者中实施针对性的护理[J]. 肖黎.  现代医学. 2015(06)
[7]一种基于属性相关的C4.5决策树改进算法[J]. 魏浩,丁要军.  中北大学学报(自然科学版). 2014(04)
[8]基于分类规则的C4.5决策树改进算法[J]. 李孝伟,陈福才,李邵梅.  计算机工程与设计. 2013(12)
[9]大数据研究综述[J]. 陶雪娇,胡晓峰,刘洋.  系统仿真学报. 2013(S1)

博士论文
[1]面向数据挖掘的分类器集成研究[D]. 陈海霞.吉林大学 2006

硕士论文
[1]基于朴素贝叶斯的入侵检测关键技术研究[D]. 王玉栋.北京工业大学 2017



本文编号:3339992

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3339992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f36f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com