方差正则化的交叉验证模型选择方法研究
发布时间:2023-08-10 20:24
统计机器学习的主要目的是依据训练数据集建立预测模型,用以描述给定数据的统计规律,并通过已有的模型对新数据进行预测。其中,模型的建立和选择是关键。所谓模型选择,指的是通过估计已建立的不同模型的性能,从而选出其中最好的模型。在传统的统计回归分析中,模型选择指的是变量的选择,从上世纪60年代开始它就一直是统计学中的重点研究问题。分类情形的模型选择主要包括两个方面:一方面是分类器(分类算法)的选择,对于给定的某个数据集,基于某个性能度量指标选择多个分类器中性能最好的一个;另一方面是特征(变量)的选择,选择一个最优性能的特征组合。现有文献中,回归和分类模型的选择常常是直接基于泛化误差的估计来进行,如基于广泛使用的泛化误差的交叉验证估计方法来进行模型的选择。然而,注意到基于这些估计的方法在选择模型过程中只使用了估计本身(均值的信息)而没有考虑估计的方差的信息,这样较大的方差将导致模型大的波动,趋向于选择较复杂的模型,从而导致模型较低的泛化性能。因此,本文将方差作为正则化项添加到传统的回归和分类模型选择准则中,提出了一种新的交叉验证框架下的方差正则化的模型选择准则。首先,通过模拟实验验证了方差正则化...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 AIC、BIC类的模型选择准则
1.2.2 交叉验证类的模型选择准则
1.2.3 基于统计显著性检验的模型选择准则
1.2.4 其他模型选择方法
1.3 本文研究方法及内容
1.4 文章结构
第二章 模型选择方法
2.1 赤池信息准则(AIC)
2.2 贝叶斯信息准则(BIC)
2.3 最小描述长度(MDL)
2.4 结构风险最小化(SRM)
2.5 自助法
2.6 V折交叉验证
2.7 组块3×2 交叉验证
2.8 方差正则化的交叉验证模型选择准则
第三章 实验分析
3.1 提出准则中交叉验证方差估计模拟
3.2 模拟数据上的模型选择准则对照实验
3.2.1 多项式回归数据实验
3.2.2 多项式分类数据实验
3.2.3 高维线性回归数据实验
3.3 真实数据上的模型选择准则对照试验
3.3.1 分类数据
3.3.2 回归数据
3.4 调节参数对模型选择的影响
第四章 理论分析
4.1 记号及引理
4.2 方差正则化的交叉验证模型选择准则的选择一致性
第五章 总结及展望
5.1 总结
5.2 展望
参考文献
攻读学位期间取得的研究成果
致谢
个人简况及联系方式
本文编号:3841160
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 AIC、BIC类的模型选择准则
1.2.2 交叉验证类的模型选择准则
1.2.3 基于统计显著性检验的模型选择准则
1.2.4 其他模型选择方法
1.3 本文研究方法及内容
1.4 文章结构
第二章 模型选择方法
2.1 赤池信息准则(AIC)
2.2 贝叶斯信息准则(BIC)
2.3 最小描述长度(MDL)
2.4 结构风险最小化(SRM)
2.5 自助法
2.6 V折交叉验证
2.7 组块3×2 交叉验证
2.8 方差正则化的交叉验证模型选择准则
第三章 实验分析
3.1 提出准则中交叉验证方差估计模拟
3.2 模拟数据上的模型选择准则对照实验
3.2.1 多项式回归数据实验
3.2.2 多项式分类数据实验
3.2.3 高维线性回归数据实验
3.3 真实数据上的模型选择准则对照试验
3.3.1 分类数据
3.3.2 回归数据
3.4 调节参数对模型选择的影响
第四章 理论分析
4.1 记号及引理
4.2 方差正则化的交叉验证模型选择准则的选择一致性
第五章 总结及展望
5.1 总结
5.2 展望
参考文献
攻读学位期间取得的研究成果
致谢
个人简况及联系方式
本文编号:3841160
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/3841160.html