多核集成学习方法的研究

发布时间：2019-10-11 09:34

【摘要】：近年来,多核学习(Multiple Kernel Learning,MKL)在机器学习领域受到广泛关注,是一种很有前景的数据挖掘方法。它主要利用多个核函数的线性组合去解决数据异构或不规则、样本不平坦分布等具有挑战性的问题。传统多核学习方法通常把求解多个核函数的线性组合看作优化问题,再重点研究优化算法,以达到更好的效率及精度,但计算量大、不容易收敛仍然是传统多核学习方法的主要缺点。Hao Xia与Steven Hoi创造性地提出了多核集成学习框架(Multiple Kernel Boosting,MKBoost),将AdaBoost的思想运用到多核学习中,巧妙地避开了复杂的优化问题,从而大大提高了算法效率,但由于AdaBoost算法对噪声数据敏感,所以MKBoost算法不能有效地处理被噪声污染的数据集,鲁棒性较差。为了克服MKBoost算法在含有噪声的数据集中出现过拟合的难题,本文提出了两种新的多核集成学习算法,即基于噪声探测函数(noise-based MKBoost,NDMKB)与基于噪声概率(noise-probability MKBoost,NP-MKB)的多核学习方法,新算法主要有两方面具体内容:第一:噪声的识别。首先根据样本邻域信息,使用k最近邻法进行噪声初步探测,越多邻域样本被错误分类,该样本是噪声的概率越大,反之该样本是正常样本的概率越大。ND-MKB算法将k最近邻法的探测结果二值化处理,即{-1,+1},NP-MKB算法利用logistic回归模型函数将初步探测结果映射到[0,1]区间,得到样本是噪声的概率。第二:新的多核集成学习方法的提出。AdaBoost算法中,无论是其损失函数还是样本权值的更新,均只关注分类正确与否,要提高AdaBoost的抗噪性,就有必要区别对待噪声样本与正常样本。本文分别基于噪声探测函数与噪声概率函数提出了两种新的损失函数,并利用前向分布算法进行算法推导。ND-MKB与NPMKB算法都充分考虑了样本的噪声性质对算法的影响,所以抗噪性和鲁棒性比传统多核集成学习算法更好。
【图文】：

示意图,最近邻法,示意图,类别

算法 3 k 最近邻算法练数据集 ( ) ( ) ( ) ，新实例 x的距离度量，在训练集中找出与新实例 x 最近邻的 k的邻域记为 ( )； ( )中根据分类决策规则（如多数表决）判定新实例 x | ∑ ( ) ( ) N T：新实例 x 的类别 y法起源于最近邻法，其定义为：为了判定未知样本类别点，计算位置样本与所有训练样本的距离，并以最近邻类别的唯一依据。如图（3-1），圆圈与右下方的三角与红色三角形类别相同。但是，最近邻法是存在明显缺感。为了解决这个问题，我们可以把未知样本周边的多大参与决策的样本量，以避免个别数据直接决定决策结

回归函数,图像,噪声,概率函数

图 3-2 logistic 回归函数图像本文引入噪声概率函数，利用 logistic 回归模型函数将噪声探测结果映射[0,1]区间，如式（3-19），而不是像 ND-MKB 算法中二值化处理，映射到{-1,+1这样处理的好处在于弥补了因噪声探测手段的局限性带来的不稳定性，，容错率高，更符合实际情况。 ( ) ¤[ ( ) ](3其中 ( )表示样本( )是噪声的概率，与的定义与式（3-6）相同，是工设置参数，因为( )的值域是(-1,1)的子集，其对应的 logistic 回归函的值域区间过窄，所以，的作用是扩大( )的范围，使得噪声概率函数能更有效地区分噪声样本与正常样本。3.4.2 NP-MKB 算法的损失函数鉴于 ND-MKB 算法的不足，本节中基于噪声概率函数 ( )提出了新的损失数形式，如式（3-20）。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP181

【参考文献】