集成学习结构多样性研究
发布时间:2021-03-20 18:20
集成学习是一类著名的机器学习方法,通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能,在诸多实际应用中取得了成功。学习器之间的多样性是构建集成学习模型的一个关键因素。如何理解和度量多样性是集成学习中非常基础但尚未解决的问题。本文对集成学习中多样性进行了研究,主要取得了以下创新成果:1)提出了结构多样性概念,为集成学习多样性研究提供了一个新方向。以往的多样性度量仅考虑分类器预测行为的差异,而忽视了分类器本身结构之间的差异。本文针对决策树提出了一种结构多样性度量,并通过实验验证了其效用。2)提出了一种嵌入结构多样性的新型选择性集成学习算法DRSE(Di-versity Regularized Selective Ensemble)。该算法的基本思想是同时考虑集成误差、行为多样性和结构多样性,使用DCA算法求解。实验结果表明,该算法的性能显著优于现有选择性集成算法。3)提出了一种基于联结树的多元信息多样性(multi-information diversity)估计方法。多元信息多样性基于信息论来刻画集成多样性,其面临的困难是高阶信息通常难以估计。本文方法通过联结...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.1:判断西瓜是好瓜还是坏瓜问题的一棵决策树
E56l??)??①,CS>?I?bn<5?]?Cm)?念)??Pairwise?TMD?、、CH)?(^)?Cm)??ZaRTKMK:[]网??丄丄丄丄?I??r:?1?0?3?4?10?[cs^\?I?CT<4?1?^?Insertion???,^<7 ̄、?/v????Deletion??7^?4?3?0?I?9???Relabel???(T)?CM)?BN<5?(m)??A?土丄丄丄丄??r,-?9?lo?9?9__〇_?Cb)??>??图2.2:五棵决策树。箭头指示了匹配两棵决策树所需要的操作,图中同时列出了成对树匹??配多样性度量值。??入一个结点、删除一个结点和替换一个结点的分枝属性。需要的操作数最多是??两棵决策树内部结点个数之和。这种定义和树编辑距离联系密切,可以通过动??态规划或者更高效的分解方法计算| ̄。这个度量值越大,说明两棵树的结构差??异越大。集成的树匹配多样性度量定义为集成中所有成对树匹配多样性度景的??均值,并用集成中最大的成对树匹配多样性度量值ij丨一化。??平个例广,闯2.2展小_的楚。£丨中5/_以《7(1\7?<:67’的/7从_("廳7>7数掘集上训练??得到的5棵决策树。数1W?乜含9个厲性,依次是Clump?Thickness?(CT)、Cel丨??Size?Uniformity?(CSI)、Cell?Shape?Uniformity?(CSH)、Marginal?Adhesion?(MA)、??Single?Epithelial?Cell?Size?(SE)、Bare?Nuclei?(BN)、Bland?Chromatin?(BC)、Nor
14?第二章结构多样性??考虑在第一章中提到的预测是否y?2?X的任务。图2.3画出了三棵决策树,??树1和树2的决策区域分别与图1.1中的决策区域一致。假设我们己经有两棵决??策树,树1和树3,我们希望从树1和树3中再选择一棵添加到树1和树2中??进行集成。没有一个已有的行为多样性度量可以区分树1和树2,因为它们在??样本上的预测结果完全一致;相比之下,树匹配多样性度量会倾向于选择一个??具有不同结构的树2而不是另一个树1。假设X和7均匀地分布在[0,10],添??加树1得到的集成误差的期望值为0.17,而添加树2得到的集成误差的期望值??为0.13。在实际应用中,分类器的预测行为可能会差别很大,因此需要同时考??虑结构多样性和行为多样性以得到一个性能好的集成。??T]?|2?3??I?X<3?1?I?X<3?|?[?X<5?1??y/\n??CD?I?Y<J?1???I?Y<3?1?CD????CD???CE>?1?x<7)??⑦?I?Y<7?1??CD???图2.3:三棵预测是否:F之X?(X,7?e?[0,10])的决策树。给定树1、树3和图1.1中的8个样??本,树匹配多样性度量(基于结构多样性)建议添加树2而非另一个树1进行集成,然而??已有的多样性度量(基于行为多样性)无法区分树1和树2。??2.4实验测试??2.4.1集成中分类器基于结构多样性排序??得到的集成中分类器按照适当的顺序排列后,集成误差通常会在中等集成??大小取得最低值[27]。那么,如果集成误差通过适当的排序能够降低,排序标准??对于降低集成误差也应当是有益的。??图2.4绘出了两个二分类数据集和以及两个多分类数据
本文编号:3091451
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.1:判断西瓜是好瓜还是坏瓜问题的一棵决策树
E56l??)??①,CS>?I?bn<5?]?Cm)?念)??Pairwise?TMD?、、CH)?(^)?Cm)??ZaRTKMK:[]网??丄丄丄丄?I??r:?1?0?3?4?10?[cs^\?I?CT<4?1?^?Insertion???,^<7 ̄、?/v????Deletion??7^?4?3?0?I?9???Relabel???(T)?CM)?BN<5?(m)??A?土丄丄丄丄??r,-?9?lo?9?9__〇_?Cb)??>??图2.2:五棵决策树。箭头指示了匹配两棵决策树所需要的操作,图中同时列出了成对树匹??配多样性度量值。??入一个结点、删除一个结点和替换一个结点的分枝属性。需要的操作数最多是??两棵决策树内部结点个数之和。这种定义和树编辑距离联系密切,可以通过动??态规划或者更高效的分解方法计算| ̄。这个度量值越大,说明两棵树的结构差??异越大。集成的树匹配多样性度量定义为集成中所有成对树匹配多样性度景的??均值,并用集成中最大的成对树匹配多样性度量值ij丨一化。??平个例广,闯2.2展小_的楚。£丨中5/_以《7(1\7?<:67’的/7从_("廳7>7数掘集上训练??得到的5棵决策树。数1W?乜含9个厲性,依次是Clump?Thickness?(CT)、Cel丨??Size?Uniformity?(CSI)、Cell?Shape?Uniformity?(CSH)、Marginal?Adhesion?(MA)、??Single?Epithelial?Cell?Size?(SE)、Bare?Nuclei?(BN)、Bland?Chromatin?(BC)、Nor
14?第二章结构多样性??考虑在第一章中提到的预测是否y?2?X的任务。图2.3画出了三棵决策树,??树1和树2的决策区域分别与图1.1中的决策区域一致。假设我们己经有两棵决??策树,树1和树3,我们希望从树1和树3中再选择一棵添加到树1和树2中??进行集成。没有一个已有的行为多样性度量可以区分树1和树2,因为它们在??样本上的预测结果完全一致;相比之下,树匹配多样性度量会倾向于选择一个??具有不同结构的树2而不是另一个树1。假设X和7均匀地分布在[0,10],添??加树1得到的集成误差的期望值为0.17,而添加树2得到的集成误差的期望值??为0.13。在实际应用中,分类器的预测行为可能会差别很大,因此需要同时考??虑结构多样性和行为多样性以得到一个性能好的集成。??T]?|2?3??I?X<3?1?I?X<3?|?[?X<5?1??y/\n??CD?I?Y<J?1???I?Y<3?1?CD????CD???CE>?1?x<7)??⑦?I?Y<7?1??CD???图2.3:三棵预测是否:F之X?(X,7?e?[0,10])的决策树。给定树1、树3和图1.1中的8个样??本,树匹配多样性度量(基于结构多样性)建议添加树2而非另一个树1进行集成,然而??已有的多样性度量(基于行为多样性)无法区分树1和树2。??2.4实验测试??2.4.1集成中分类器基于结构多样性排序??得到的集成中分类器按照适当的顺序排列后,集成误差通常会在中等集成??大小取得最低值[27]。那么,如果集成误差通过适当的排序能够降低,排序标准??对于降低集成误差也应当是有益的。??图2.4绘出了两个二分类数据集和以及两个多分类数据
本文编号:3091451
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3091451.html