基于深度森林的小数据集分类研究
发布时间:2025-02-15 10:35
随着现代数字信息技术的飞速发展,各行各业都生成并存储了海量数据,对这些海量数据的准确分类是对数据后续有效分析的基础。由于个人隐私和安全问题,在一些信息保密性高的行业仅能获得少量的存储数据,并且标注大量数据的人工成本过大,这使得可利用的数据是非常有限的。研究表明,深度学习模型对训练数据需求较大,在一些小规模数据的任务上易出现过拟合问题,因此,研究小数据集分类问题具有深远的影响价值。深度森林模型因其可理解性高和自动确定级联层数的特点,在处理小数据集分类任务中具有明显的优势。小数据集样本量少通常会存在类别不均衡和多样性差等问题,类别不均衡会影响随机森林不能有效学习到类别间的准确区分特征,数据多样性差会导致模型学习不到原始数据的整体数据分布,从而可能导致深度森林模型出现过拟合现象,使得模型的分类性能不佳。本文针对这两个问题作了如下深入分析:1)针对小数据集类别不均衡问题,研究了多粒度扫描部分的按类建树策略,提出了跳跃森林(Skip Connection Forest,SCForest)模型。通过在深度森林级联层中加入跳跃连接,有效缓解了特征向量后向传播时易出现特征消失或特征爆炸现象,并且级联层采...
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
本文编号:4034173
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2-1选择礼物问题的一颗决策树
彩蔷霾呤骷?傻囊恢旨?裳?埃?哂心P统?问?佟⒛P透丛佣?低、可并行操作等优点。这一部分从决策树扩展到集成学习,逐步扩展到深度森林模型原理。2.1.1决策树原理决策树是一种常见的基于树结构的学习方法。决策树中的每个内部节点表示特征属性的选取试验,每个分支表示属性的试验结果,叶结点....
图2-3集成学习框架
第2章基本理论基础9Gini(D)是从数据集D中随机抽取两个样品的结果,以及类别标记不相符的可能性。也就是说,Gini(D)越小D的纯度越校在此基础上,将属性a的基尼指数定义为:1||<sub>,</sub>()||VvvvDGiniindexDaGiniDD2.6然后选择候选集....
图2-4Stacking算法框架
??蛴λ婊?≡衿渲?一个。加权表决与加权平均数相似。标准的绝对多数表决方法为“可靠性预测”提供了一种选择。学习方法:如果有大量的训练数据,适合用“学习方法”来结合学习者。stacking[47]是学习方法的典型代表。如图2-4所示,Stacking是一个综合性的分层模型框架,通常....
图2-5深度森林的多粒度滑窗框架
第2章基本理论基础13究表明,将学习者的输出类概率作为二级学习者的输入属性,MRL作为二级学习算法[58]和MLR中的各种属性集[49]是比较好的。2.1.3深度森林原理深度森林是一种新的决策树集成方法。这一方法提供了一种串联结构深层森林的集成,从而能够学习数据特性。如果输入较大....
本文编号:4034173
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4034173.html
上一篇:输出误差模型加权多新息随机梯度辨识算法
下一篇:没有了
下一篇:没有了