线性约束高维模型的稳健变量选择和异分布条件下的分类方法
发布时间:2021-04-07 05:55
变量选择和分类问题是统计分析和机器学习的热点,二者广泛应用于诸多科学研究和应用领域,诸如医学诊断,基因组研究,金融风险和无线通信等.高维模型通常假设具有稀疏性,即只有少数预测变量对于响应变量有影响.变量选择旨在选择出重要的预测变量,并对相应的系数进行估计.分类方法是根据已知类别的历史数据建立分类准则,用此对新的观测值进行分类.尽管现如今存在许多变量选择和分类的方法,但它们对于具有厚尾误差,异常值和异分布的数据并不适用或者无效.此外,在实际应用中可能存在关于响应变量和预测变量之间关系的假设条件或者专业信息,可以利用这些先验知识对回归参数进行约束.本论文研究了两类问题,一是针对厚尾分布数据的带有参数线性约束的稳健变量选择;二是当一个类别中数据异分布时的分类问题.论文内容共分为五个章节:第一章简单介绍一些基础知识,包括常用的变量选择方法Lasso及其变型,自由度,分位数回归,Huber回归和经典的分类方法.第二章和第三章讨论带有线性约束高维模型的稳健变量选择.其中,第二章介绍了线性约束的广义l1-惩罚分位数回归,第三章提出了线性约束的Huber正则化回归.第四章研究了异分布数据的最小模糊度分...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:博士
【部分图文】:
图2.1:?ASA汽车发动机输出对燃油效率的函数.左图:带约束的BP估计,TV?=?5.右??图:无约束的BP估计,iV?=?5.??
用训练数据估计参数/5,并通过最小化CV,AIC和BIC来选择最优的调和参数.验证集??用于选择GOLD标准准则的调和参数,即最小化预测误差-??图3.1,3.2和3.3的左侧分别展示误差服从正态分布,混合正态分布和t分布时,四??种不同模型选择准则所选的最优A的密度,其中,密度曲线通过核密度估计获得.从图??像可以看出,通过AIC,BIC准则选择的A密度曲线的形状和GOLD标准准则相似.相比??于CV,AIC和GOLD标准准则,BIC倾向于选择更大的A.通过CV选择的A的方差小??于AIC,?BIC和GOLD准则.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??图3.1:误差服从正态分布时,左图为由CV,?AIC,?BIC和GOLD准则选出的A密度曲线.??右图为由CV,?AIC,?BIC和GOLD准则选择的模型的MAD箱线图.??我们从预测性质和变量选择这两个方面比较由不同模型选择准则选出的A和相应??的估计值.对于每一个数据集,用训练数据估计出参数久然后用测试数据丨#,=??1
图3.2:误差服从混合正态分布时,左图为由CV,?AIC,?BIC和GOLD准则选出的A密度曲??线.右图为由CV,?AIC,?BIC和GOLD准则选择的模型的MAD箱线图.??图3.1,?3.2和3.3的右侧分别展示了误差服从正态分布,混合正态分布和t分布时,??由CV,AIC,BIC和GOLD准则选择模型的MAD箱线图.如图所示,由AIC和BIC准??则选择模型的MAD值与GOLD准则是可比的,并且都低于由CV准则选择模型的MAD值.??这说明了利用我们所提出的自由度公式构造的AIC和BIC准则具有很好的预测效率.同??时,由GOLD准则选择的模型具有最小的MAD值,因为它是标准的准则.??为了比较变量选择的效果,我们在表格3.1中计算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系数估??计为非零的百分比,FNR是非零系数估计为零的百分比,SER是所有估计错误的系数个??数除以P.表格3.1显示,CV,AIC,?BIC和GOLD准则能包含所有的重要变量,因为它们??的FNR近似为零.从表格中可以看出
本文编号:3122935
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:102 页
【学位级别】:博士
【部分图文】:
图2.1:?ASA汽车发动机输出对燃油效率的函数.左图:带约束的BP估计,TV?=?5.右??图:无约束的BP估计,iV?=?5.??
用训练数据估计参数/5,并通过最小化CV,AIC和BIC来选择最优的调和参数.验证集??用于选择GOLD标准准则的调和参数,即最小化预测误差-??图3.1,3.2和3.3的左侧分别展示误差服从正态分布,混合正态分布和t分布时,四??种不同模型选择准则所选的最优A的密度,其中,密度曲线通过核密度估计获得.从图??像可以看出,通过AIC,BIC准则选择的A密度曲线的形状和GOLD标准准则相似.相比??于CV,AIC和GOLD标准准则,BIC倾向于选择更大的A.通过CV选择的A的方差小??于AIC,?BIC和GOLD准则.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??图3.1:误差服从正态分布时,左图为由CV,?AIC,?BIC和GOLD准则选出的A密度曲线.??右图为由CV,?AIC,?BIC和GOLD准则选择的模型的MAD箱线图.??我们从预测性质和变量选择这两个方面比较由不同模型选择准则选出的A和相应??的估计值.对于每一个数据集,用训练数据估计出参数久然后用测试数据丨#,=??1
图3.2:误差服从混合正态分布时,左图为由CV,?AIC,?BIC和GOLD准则选出的A密度曲??线.右图为由CV,?AIC,?BIC和GOLD准则选择的模型的MAD箱线图.??图3.1,?3.2和3.3的右侧分别展示了误差服从正态分布,混合正态分布和t分布时,??由CV,AIC,BIC和GOLD准则选择模型的MAD箱线图.如图所示,由AIC和BIC准??则选择模型的MAD值与GOLD准则是可比的,并且都低于由CV准则选择模型的MAD值.??这说明了利用我们所提出的自由度公式构造的AIC和BIC准则具有很好的预测效率.同??时,由GOLD准则选择的模型具有最小的MAD值,因为它是标准的准则.??为了比较变量选择的效果,我们在表格3.1中计算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系数估??计为非零的百分比,FNR是非零系数估计为零的百分比,SER是所有估计错误的系数个??数除以P.表格3.1显示,CV,AIC,?BIC和GOLD准则能包含所有的重要变量,因为它们??的FNR近似为零.从表格中可以看出
本文编号:3122935
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3122935.html