多核空间下基于最大相关熵准则的稳健回归学习
发布时间:2021-07-10 15:24
本文旨在研究复杂数据的鲁棒建模问题,提出了一种多核稳健回归学习算法(RR-MCC-MK)。一方面在针对一些分布非平坦等情况的数据建模时,核方法中常见的单核方法遇到了挑战;另一方面当样本数据中包含非高斯噪声或异常值时,利用最小二乘方法建立的回归学习算法的性能表现不好,即模型的稳健性较差。因此在本文的设置中,回归学习的假设空间将基于由单核函数的线性组合构造的多核函数构建,回归学习优化策略中的损失函数将由最小二乘方法中的平方损失函数替换为最大相关熵诱导损失函数,在结构风险最小化的框架下建立回归学习算法。提出RR-MCC-MK算法后,本文给出了算法的理论分析。基于一种新的误差分解方法和一些合理的假设条件,通过建立算法的超额误差界得出RR-MCC-MK算法的学习率。两个函数模拟数据集和两个真实数据集上的算法实验评估了RR-MCC-MK算法的表现,实验证明了其较于两种对比算法的优越性。
【文章来源】:浙江工商大学浙江省
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
基本框架
多核空间下基于最大相关熵准则的稳健回归学习(a)f1(b)f2图4.2:两个模拟函数的图像.分布N(0,0.1)。{ε(2)i}为一个脉冲函数(异常值),Prob(ε(2)i=t)=1pt=0;p/2t=1;p/2t=1.τ=0或τ=maxfjminfj,可以设置添加的噪声数据中是否包含异常值。当τ=maxfjminfj时,分别设置p=0.05,0.1,0.15,0.2,即分别有5%、10%、15%、20%的样本包含异常值。其次,构造函数模拟实验的测试集:依据函数fi,i=1,2随机生成一个样本量大小为100个样本点数据{(xi,fj(xi))}。这样,就设置好了测试集,训练集和测试集的样本量比例为2:1。4.2.2实验结果分析分别将LSRR-1-SS算法、RKSR算法、RR-MCC-MK三种算法应用于训练集,学习得到不同的模型。之后,在测试集上分别测试模型,依据(4-2)式得到模型的测试误差(测试MSE)。为了使得测试结果稳定,测试阶段重复10次,计算一次训练模型在10组不同的随机测试集上的平均测试MSE,以此流程作为一轮函数模拟实验。重复50轮函数模拟实验,计算50轮平均测试MSE的平均值。表4.3为仅添加三种分布噪声的函数模拟实验结果,实验中三种算法中表现优异的算法结果用黑体标出。27
多核空间下基于最大相关熵准则的稳健回归学习(a)(b)(c)图4.3:f1模拟结果(a)卡方噪声;(b)指数噪声;(c)高斯噪声表4.4为添加三种分布噪声和不同比例异常值的f1函数模拟实验结果,实验中三种算法中表现优异的算法结果用黑体标出。由表4.4,相较于其他两种算法,RR-MCC-MK算法在所有的情况(分布噪声和不同比例的异常值)下都有着更小的测试误差。相较于LSRR-1-SS算法,RR-MCC-MK算法可以更好地处理异常值。即使是针对高斯噪声,加入不同比例的异常值后,LSRR-1-SS算法也遇到了挑战,而C损失能够更加高效地处理异常值。与RKSR算法相比,RR-MCC-MK算法表现优秀的主要原因为模拟函数变化复杂,多核空间具有更强的逼近能力。图4.4为f1在卡方分布噪声的基础上加入两种水平的异常值的数据集上的模拟函数实验,其验证了上述结论。综上所述,RR-MCC-MK算法考虑了可以得到良好稳健性的鲁棒损失函数C损失和逼近能力更为强大的多核空间,使得模型的泛化性显著增强。函数模拟实验结果验证了这一观点,表明RR-MCC-MK算法在处理包含非高斯噪声亦或高斯噪声的数据时较与LSRR-1-SS算法和RKSR算法有着更好的表现。29
本文编号:3276174
【文章来源】:浙江工商大学浙江省
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
基本框架
多核空间下基于最大相关熵准则的稳健回归学习(a)f1(b)f2图4.2:两个模拟函数的图像.分布N(0,0.1)。{ε(2)i}为一个脉冲函数(异常值),Prob(ε(2)i=t)=1pt=0;p/2t=1;p/2t=1.τ=0或τ=maxfjminfj,可以设置添加的噪声数据中是否包含异常值。当τ=maxfjminfj时,分别设置p=0.05,0.1,0.15,0.2,即分别有5%、10%、15%、20%的样本包含异常值。其次,构造函数模拟实验的测试集:依据函数fi,i=1,2随机生成一个样本量大小为100个样本点数据{(xi,fj(xi))}。这样,就设置好了测试集,训练集和测试集的样本量比例为2:1。4.2.2实验结果分析分别将LSRR-1-SS算法、RKSR算法、RR-MCC-MK三种算法应用于训练集,学习得到不同的模型。之后,在测试集上分别测试模型,依据(4-2)式得到模型的测试误差(测试MSE)。为了使得测试结果稳定,测试阶段重复10次,计算一次训练模型在10组不同的随机测试集上的平均测试MSE,以此流程作为一轮函数模拟实验。重复50轮函数模拟实验,计算50轮平均测试MSE的平均值。表4.3为仅添加三种分布噪声的函数模拟实验结果,实验中三种算法中表现优异的算法结果用黑体标出。27
多核空间下基于最大相关熵准则的稳健回归学习(a)(b)(c)图4.3:f1模拟结果(a)卡方噪声;(b)指数噪声;(c)高斯噪声表4.4为添加三种分布噪声和不同比例异常值的f1函数模拟实验结果,实验中三种算法中表现优异的算法结果用黑体标出。由表4.4,相较于其他两种算法,RR-MCC-MK算法在所有的情况(分布噪声和不同比例的异常值)下都有着更小的测试误差。相较于LSRR-1-SS算法,RR-MCC-MK算法可以更好地处理异常值。即使是针对高斯噪声,加入不同比例的异常值后,LSRR-1-SS算法也遇到了挑战,而C损失能够更加高效地处理异常值。与RKSR算法相比,RR-MCC-MK算法表现优秀的主要原因为模拟函数变化复杂,多核空间具有更强的逼近能力。图4.4为f1在卡方分布噪声的基础上加入两种水平的异常值的数据集上的模拟函数实验,其验证了上述结论。综上所述,RR-MCC-MK算法考虑了可以得到良好稳健性的鲁棒损失函数C损失和逼近能力更为强大的多核空间,使得模型的泛化性显著增强。函数模拟实验结果验证了这一观点,表明RR-MCC-MK算法在处理包含非高斯噪声亦或高斯噪声的数据时较与LSRR-1-SS算法和RKSR算法有着更好的表现。29
本文编号:3276174
本文链接:https://www.wllwen.com/kejilunwen/yysx/3276174.html