当前位置:主页 > 管理论文 > 领导决策论文 >

面向情报大数据的决策树增量学习算法研究

发布时间:2021-12-22 12:03
  由于具有易于理解的优势,决策树成为最流行的分类方法之一。然而,利用已经存在的方法构建的决策树一般都会过于庞大、复杂化,因此在实际应用中实用性受到限制。此外,当今社会数据通常都是不断增加的,如果使用传统的决策树算法,即新增一批样本之后,将历史数据和新增数据再放在一起重新学习一遍,这种方式会把以前的知识遗忘掉,使得之前学习到的决策树没有任何意义。因此,这时候增量学习就变得尤为重要,即利用新增样本对以前学习到的决策树进行更新调整。在深入研究决策树方法和增量学习方法的基础上,本文提出一个新的决策树算法NOLCDT。在分裂结点之前,NOLCDT算法把结点中每个候选属性的多个属性值分别合并成两组,选择信息增益最大的候选属性将结点分为两个分支,这种方式可以避免生成太多的分支,进而防止决策树过于庞大。NOLCDT算法在选择下一个将要分裂的结点方面也有所改进,该算法为所有候选分裂结点计算对应的结点分裂度量值,并且总是选择结点分裂度量值最大的候选结点作为下一个分裂结点,使得每次分裂都有最大的信息增益。此外,本文在决策树增量学习算法ID5R的基础上,提出一种改进算法IID5R,IID5R增加了评估分类属性质... 

【文章来源】:哈尔滨工程大学黑龙江省 211工程院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

面向情报大数据的决策树增量学习算法研究


简单决策树

决策树


算法绍的 C4.5 算法不能进行增量学习,也就是只适合于数据全部到达之情况。但是现在的很多应用,数据都是不断演绎变化的,因此这时策树算法[37]。本节将要介绍一种增量决策树算法 ID5R,对于相同的5R 构建的决策树和 ID3 算法最后的结果是相同的。这种增量学习n 的非增量方法应用到增量学习任务中[38],当每个新样本来到之后一个新的决策树。ID5R 算法是对 ID5 算法的拓展,在每个结点中,每个属性对应的信息增益所必须的信息,也就是属性值所属类别的点对应的分类属性对应的信息增益不是最大时,就用候选属性中信属性来替换。当某个结点的分类属性需要被替换掉的时候,ID4 与 ID5R 算法的处算法是把该结点下面的所有子树直接丢弃,重新构建子树;而 ID5

【参考文献】:
期刊论文
[1]基于信息熵的决策树UE提升研究[J]. 黄轶文,卢世军.  计算机与数字工程. 2016(05)
[2]基于增量式决策树的时间序列分类算法研究[J]. 王树英,王志海.  现代计算机(专业版). 2015(08)
[3]基于改进型C4.5算法的关系数据库零水印模型研究[J]. 周钢,吴克明.  计算机应用与软件. 2015(01)
[4]基于多光谱影像和专家决策法的作物分类研究(英文)[J]. 刘磊,江东,徐敏,尹芳.  Agricultural Science & Technology. 2011(11)
[5]增量决策树知识获取[J]. 李明哲,叶春明.  电脑知识与技术. 2009(23)
[6]贝叶斯分类器集成的增量学习方法[J]. 张全新,郑建军,牛振东,原达.  北京理工大学学报. 2008(05)
[7]基于最大熵选取示例的增量决策树归纳[J]. 闫建辉,王熙照,隋春荣,王硕,苑俊英.  计算机工程与应用. 2006(35)

博士论文
[1]增量机器学习算法研究[D]. 胡蓉.南京理工大学 2013
[2]增量学习及其在图像识别中的应用[D]. 李敬.上海交通大学 2008

硕士论文
[1]免疫入侵检测中基于信息增益的检测器生成研究[D]. 周志凯.哈尔滨理工大学 2014
[2]决策树算法实现及其在信用风险控制中的应用[D]. 李园园.山东大学 2013
[3]支持向量机不平衡问题和增量问题算法研究[D]. 闫国虹.西安电子科技大学 2012
[4]数据挖掘分类技术在健身会所管理系统中的应用研究[D]. 孙喜洲.中国海洋大学 2011
[5]增量决策树中样例选择的影响与评价[D]. 王硕.河北大学 2010



本文编号:3546354

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3546354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a804***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com