一种基于密度的改进决策树算法
发布时间:2017-09-15 06:28
本文关键词:一种基于密度的改进决策树算法
【摘要】:分类问题是机器学习领域的重要研究内容,分类是指对已知类别的数据集进行高度抽象,提取规则,构建预测模型,从而使用该模型对未知类别的样本数据进行归类。决策树是各种分类算法中最常见的算法,它相对于其他算法模式简单、分类速度快、准确率高,且生成的规则可以用语意表示,具有更强的可解释性。然而实际数据集中常常伴随着噪声或者孤立点,这会使决策树出现只包含极少量样本的叶子节点,产生不必要的分支,进而使决策树规模变大。针对这一问题,本文提出了基于密度的决策树构建思想,即在决策树的构建过程中将划分区域内的样本密度作为一个衡量标准,使生成的决策树中不存在或者仅少量存在上述不必要分支,精简了决策树规模,同时在一定程度上避免了过拟合现象,提高了预测精度。同时,本文将基于密度的构建思想推广到了以RandomForest、Bagging和AdaBoost为代表的集成算法中,这三种算法虽然相较于单个决策树已经可以表现出较强的分类能力,但是同样面临基分类器在训练结果中存在不必要分支的问题,而基于密度的集成学习算法则表现出了更强的分类能力,可以明显缩小建树规模,提高分类准确性。本文在多组UCI数据集上进行了多次实验,将本文方法与传统方法在树的平均节点个数和分类准确性上进行了对比。实验表明,本文方法可以普遍减小决策树节点个数,同时降低过拟合程度,提高预测准确性,使得由本文方法构建的分类器具有更佳的分类性能,而且结构简单,语义明了,泛化能力强。
【关键词】:决策树 集成算法 密度 过拟合
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 摘要4-5
- Abstract5-7
- 1 绪论7-13
- 1.1 研究背景及意义7
- 1.2 常见分类算法介绍7-10
- 1.3 机器学习研究现状10-12
- 1.4 本文主要内容12-13
- 2 决策树算法简介13-28
- 2.1 C4.5算法介绍16-20
- 2.2 相关集成学习算法介绍20-28
- 2.2.1 RandomForest算法20-22
- 2.2.2 Bagging算法22-24
- 2.2.3 AdaBoost算法24-28
- 3 基于密度的C4.5算法28-36
- 3.1 基于密度的C4.5算法介绍28-31
- 3.2 与传统C4.5算法的对比31-35
- 3.2.1 实验背景介绍31-32
- 3.2.2 实验分析32-35
- 3.3 本章小结35-36
- 4 基于密度的集成决策树算法36-43
- 4.1 基于密度的RandomForest算法37-39
- 4.2 基于密度的Bagging算法39-41
- 4.3 基于密度的AdaBoost算法41-42
- 4.4 本章小结42-43
- 结论43-44
- 参考文献44-47
- 攻读硕士学位期间发表学术论文情况47-48
- 致谢48-49
【参考文献】
中国期刊全文数据库 前10条
1 郭志高;高晓光;邸若海;;小数据集条件下基于双重约束的BN参数学习[J];自动化学报;2014年07期
2 董陇军;李夕兵;彭康;;岩爆等级预测的随机森林模型及应用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期
3 张欣;梁宗保;;多分类器融合算法研究与应用[J];湘潭大学自然科学学报;2011年02期
4 李明方;张化祥;;针对不平衡数据集的Bagging改进算法[J];计算机工程与应用;2010年30期
5 王艳秋;徐传飞;于戈;谷峪;陈默;;一种面向不确定对象的可见k近邻查询算法[J];计算机学报;2010年10期
6 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[J];计算机学报;2010年08期
7 阮锦新;尹俊勋;;基于人脸特征和AdaBoost算法的多姿态人脸检测[J];计算机应用;2010年04期
8 徐鹏;林森;;基于C4.5决策树的流量分类方法[J];软件学报;2009年10期
9 李闯;丁晓青;吴佑寿;;一种改进的AdaBoost算法——AD AdaBoost[J];计算机学报;2007年01期
10 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
,本文编号:854852
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/854852.html