集成学习结构多样性研究

发布时间：2021-03-20 18:20

　　集成学习是一类著名的机器学习方法,通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能,在诸多实际应用中取得了成功。学习器之间的多样性是构建集成学习模型的一个关键因素。如何理解和度量多样性是集成学习中非常基础但尚未解决的问题。本文对集成学习中多样性进行了研究,主要取得了以下创新成果:1)提出了结构多样性概念,为集成学习多样性研究提供了一个新方向。以往的多样性度量仅考虑分类器预测行为的差异,而忽视了分类器本身结构之间的差异。本文针对决策树提出了一种结构多样性度量,并通过实验验证了其效用。2)提出了一种嵌入结构多样性的新型选择性集成学习算法DRSE（Di-versity Regularized Selective Ensemble）。该算法的基本思想是同时考虑集成误差、行为多样性和结构多样性,使用DCA算法求解。实验结果表明,该算法的性能显著优于现有选择性集成算法。3)提出了一种基于联结树的多元信息多样性（multi-information diversity）估计方法。多元信息多样性基于信息论来刻画集成多样性,其面临的困难是高阶信息通常难以估计。本文方法通过联结...

【文章来源】：南京大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

集成学习结构多样性研究

图２．１：判断西瓜是好瓜还是坏瓜问题的一棵决策树

决策树,度量值,多样性,结点

Ｅ５６ｌ?？）??①，ＣＳ＞?Ｉ?ｂｎ＜５?］?Ｃｍ）?念）??Ｐａｉｒｗｉｓｅ?ＴＭＤ?、、ＣＨ）?（＾）?Ｃｍ）??ＺａＲＴＫＭＫ：［］网??丄丄丄丄?Ｉ??ｒ：?１?０?３?４?１０?［ｃｓ＾＼?Ｉ?ＣＴ＜４?１?＾?Ｉｎｓｅｒｔｉｏｎ???，＾＜７￣、?／ｖ????Ｄｅｌｅｔｉｏｎ??７＾?４?３?０?Ｉ?９???Ｒｅｌａｂｅｌ???（Ｔ）?ＣＭ）?ＢＮ＜５?（ｍ）??Ａ?土丄丄丄丄??ｒ，－?９?ｌｏ?９?９＿＿〇＿?Ｃｂ）?？＞??图２．２：五棵决策树。箭头指示了匹配两棵决策树所需要的操作，图中同时列出了成对树匹??配多样性度量值。??入一个结点、删除一个结点和替换一个结点的分枝属性。需要的操作数最多是??两棵决策树内部结点个数之和。这种定义和树编辑距离联系密切，可以通过动??态规划或者更高效的分解方法计算｜￣。这个度量值越大，说明两棵树的结构差??异越大。集成的树匹配多样性度量定义为集成中所有成对树匹配多样性度景的??均值，并用集成中最大的成对树匹配多样性度量值ｉｊ丨一化。??平个例广，闯２．２展小＿的楚。￡丨中５／＿以《７（１＼７？＜：６７’的／７从＿（＂廳７＞７数掘集上训练??得到的５棵决策树。数１Ｗ？乜含９个厲性，依次是Ｃｌｕｍｐ?Ｔｈｉｃｋｎｅｓｓ?（ＣＴ）、Ｃｅｌ丨??Ｓｉｚｅ?Ｕｎｉｆｏｒｍｉｔｙ?（ＣＳＩ）、Ｃｅｌｌ?Ｓｈａｐｅ?Ｕｎｉｆｏｒｍｉｔｙ?（ＣＳＨ）、Ｍａｒｇｉｎａｌ?Ａｄｈｅｓｉｏｎ?（ＭＡ）、??Ｓｉｎｇｌｅ?Ｅｐｉｔｈｅｌｉａｌ?Ｃｅｌｌ?Ｓｉｚｅ?（ＳＥ）、Ｂａｒｅ?Ｎｕｃｌｅｉ?（ＢＮ）、Ｂｌａｎｄ?Ｃｈｒｏｍａｔｉｎ?（ＢＣ）、Ｎｏｒ

决策树,多样性

１４?第二章结构多样性??考虑在第一章中提到的预测是否ｙ?２?Ｘ的任务。图２．３画出了三棵决策树，??树１和树２的决策区域分别与图１．１中的决策区域一致。假设我们己经有两棵决??策树，树１和树３，我们希望从树１和树３中再选择一棵添加到树１和树２中??进行集成。没有一个已有的行为多样性度量可以区分树１和树２，因为它们在??样本上的预测结果完全一致；相比之下，树匹配多样性度量会倾向于选择一个??具有不同结构的树２而不是另一个树１。假设Ｘ和７均匀地分布在［０，１０］，添??加树１得到的集成误差的期望值为０．１７，而添加树２得到的集成误差的期望值??为０．１３。在实际应用中，分类器的预测行为可能会差别很大，因此需要同时考??虑结构多样性和行为多样性以得到一个性能好的集成。??Ｔ］?｜２?３??Ｉ?Ｘ＜３?１?Ｉ?Ｘ＜３?｜?［?Ｘ＜５?１??ｙ／＼ｎ??ＣＤ?Ｉ?Ｙ＜Ｊ?１?？?Ｉ?Ｙ＜３?１?ＣＤ?？??ＣＤ?？?ＣＥ＞?１?ｘ＜７）??⑦?Ｉ?Ｙ＜７?１??ＣＤ？??图２．３：三棵预测是否：Ｆ之Ｘ?（Ｘ，７?ｅ?［０，１０］）的决策树。给定树１、树３和图１．１中的８个样??本，树匹配多样性度量（基于结构多样性）建议添加树２而非另一个树１进行集成，然而??已有的多样性度量（基于行为多样性）无法区分树１和树２。??２．４实验测试??２．４．１集成中分类器基于结构多样性排序??得到的集成中分类器按照适当的顺序排列后，集成误差通常会在中等集成??大小取得最低值［２７］。那么，如果集成误差通过适当的排序能够降低，排序标准??对于降低集成误差也应当是有益的。??图２．４绘出了两个二分类数据集和以及两个多分类数据

本文编号：3091451

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3091451.html

上一篇：基于深度学习的机场场面飞机检测跟踪系统设计与实现
下一篇：基于局部标签关联的并行多标签k近邻

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|