模型决策树方法研究
发布时间:2021-06-13 00:16
信息时代的快速发展使得数据的采集、传输变得更加容易,数据规模也呈现指数式增长的趋势。这样庞大的数据中蕴藏着巨大的价值,所以对大数据的分析和利用便显得尤为重要。对数据进行分类是机器学习领域中的一个重要任务,比如垃圾邮件识别、图像识别、人脸识别、语音识别等。决策树(Decision Tree,DT)凭借其优秀的数据分析效率和易理解的输出结果在分类问题中得到了广泛的应用,然而因为决策树采用递归方法构建,在数据规模较大的情况下,训练效率较低,并且过度分类的决策树可能会产生过拟合现象。因此研究高效的决策树构建算法仍然具有重要的应用价值。本文针对上述问题开展研究,具体内容包括:(1)提出模型决策树方法。针对决策树递归构建造成算法时间变长、效率变低的问题,本文提出一种模型决策树算法(Model Decision Tree,MDT)。MDT算法在训练数据集上采用基尼指数生成一棵不完全决策树,然后用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,进而生成最终的决策树。这样产生的模型决策树与原始的决策树算法相比,能够在算法精度不损失或者损失较小的情况下,提高决策树的训...
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
不完全决策树的构造示意图
可以看出,表现最好的是 MDT_SVM(rbf)算法,其次是 MDTFS_SVM(rbf)算法、DT 算法和 MDT_LIB 算法,排在第三位的是 MDTFS_SVM(linear)算法,排在最后一位的是 LIBLINEAR 算法。综上所述,本文提出的 MDT 算法在精度方面的表现也具有一定的优势。(4) 抗过拟合性分析因为本文提出的模型决策树并没有像传统决策树一样在非纯伪叶结点上继续分裂,所以模型决策树算法可能在一定程度上减弱决策树算法因为结点完全分裂而造成的过拟合现象。为说明这一结论,本文在几个数据集上分别统计了决策树算法和模型决策树算法在测试集上的误差和在训练集上的误差,用以观察这两类算法的过拟合现象。图 3.2(a)给出了 Credit Card Cliet 数据集上未使用属性随机的四种算法在初始训练集上取 10%的样本到 100%的样本进行训练得到的训练误差和测试误差折线图;图 3.2(b)给出了 Credit Card Cliet 数据集上使用了属性随机的四种算法在初始训练集上取 10%的样本到 100%的样本进行训练得到的训练误差和测试误差折线图,其中模型决策树算法的 t 全部取 0.1。
_rna 12.32 12.21 12.19 12.46 12.27 12.24 12.32 12.31 12tralian 15.64 15.89 16.41 16.64 16.87 16.80 17.02 16.69 16guide1 4.87 5.19 5.28 4.97 5.10 5.02 4.96 5.08 5ice 0.91 1.03 1.26 1.14 1.23 1.21 1.24 1.19 1ast_cancer 2.45 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2e_solar 31.47 31.46 31.47 31.48 31.49 31.47 31.48 31.49 31最后一列给出了 10 个数据集在不同 L 下错误率的平均值。来看,在这 10 个数据集上 MDF 算法的分类错误率随着 L有些数据集上 MDF 算法的分类错误率会随着 L 的增加而集上会先增大后减小,剩下一些则随着 L 的增大变化不明率随着 L 的变化情况不一样且错误率的最小值分布在不同小值与表中其它错误率值的差距也较小。的说明不同 L 下的 MDF 算法错误率的变化情况,选取了每察,具体如图 4.1 所示。
【参考文献】:
期刊论文
[1]模型决策树:一种决策树加速算法[J]. 尹儒,门昌骞,王文剑,刘澍泽. 模式识别与人工智能. 2018(07)
[2]决策树技术及其当前研究方向[J]. John Durkin,蔡竞峰,蔡自兴. 控制工程. 2005(01)
本文编号:3226593
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
不完全决策树的构造示意图
可以看出,表现最好的是 MDT_SVM(rbf)算法,其次是 MDTFS_SVM(rbf)算法、DT 算法和 MDT_LIB 算法,排在第三位的是 MDTFS_SVM(linear)算法,排在最后一位的是 LIBLINEAR 算法。综上所述,本文提出的 MDT 算法在精度方面的表现也具有一定的优势。(4) 抗过拟合性分析因为本文提出的模型决策树并没有像传统决策树一样在非纯伪叶结点上继续分裂,所以模型决策树算法可能在一定程度上减弱决策树算法因为结点完全分裂而造成的过拟合现象。为说明这一结论,本文在几个数据集上分别统计了决策树算法和模型决策树算法在测试集上的误差和在训练集上的误差,用以观察这两类算法的过拟合现象。图 3.2(a)给出了 Credit Card Cliet 数据集上未使用属性随机的四种算法在初始训练集上取 10%的样本到 100%的样本进行训练得到的训练误差和测试误差折线图;图 3.2(b)给出了 Credit Card Cliet 数据集上使用了属性随机的四种算法在初始训练集上取 10%的样本到 100%的样本进行训练得到的训练误差和测试误差折线图,其中模型决策树算法的 t 全部取 0.1。
_rna 12.32 12.21 12.19 12.46 12.27 12.24 12.32 12.31 12tralian 15.64 15.89 16.41 16.64 16.87 16.80 17.02 16.69 16guide1 4.87 5.19 5.28 4.97 5.10 5.02 4.96 5.08 5ice 0.91 1.03 1.26 1.14 1.23 1.21 1.24 1.19 1ast_cancer 2.45 2.45 2.46 2.46 2.46 2.46 2.46 2.46 2e_solar 31.47 31.46 31.47 31.48 31.49 31.47 31.48 31.49 31最后一列给出了 10 个数据集在不同 L 下错误率的平均值。来看,在这 10 个数据集上 MDF 算法的分类错误率随着 L有些数据集上 MDF 算法的分类错误率会随着 L 的增加而集上会先增大后减小,剩下一些则随着 L 的增大变化不明率随着 L 的变化情况不一样且错误率的最小值分布在不同小值与表中其它错误率值的差距也较小。的说明不同 L 下的 MDF 算法错误率的变化情况,选取了每察,具体如图 4.1 所示。
【参考文献】:
期刊论文
[1]模型决策树:一种决策树加速算法[J]. 尹儒,门昌骞,王文剑,刘澍泽. 模式识别与人工智能. 2018(07)
[2]决策树技术及其当前研究方向[J]. John Durkin,蔡竞峰,蔡自兴. 控制工程. 2005(01)
本文编号:3226593
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3226593.html