带测量误差的可加模型的变量选择
发布时间:2020-06-12 11:14
【摘要】:一般的回归模型,通常假设解释变量的观测不含有误差,然而在很多领域的实际问题中,解释变量往往含有测量误差。如果忽略测量误差的影响,可能会使统计推断出现巨大偏差,得出的结论与真实情况出入较大,因而近年来,测量误差问题方面的研究受到广泛关注。另一方面,可加模型因其不受函数形式限制的灵活性,常被应用于多类问题中。本文研究的重点,即是在可加模型的框架下,考虑存在测量误差问题时如何进行模型估计以及变量选择。首先文章基于现有的研究情况,简单总结了测量误差模型的基本概念和基本方法,进而介绍了处理部分线性测量误差模型的思想。为了将这一思想进行推广,文章补充了B样条和群组变量选择的理论基础。然后在此之上进行了灵活应用,在含测量误差的可加模型中使用了B样条基拟合,将非参数模型转变为线性形式。接着结合最小二乘方法构造了新的目标函数,同时重新定义其中的变量使问题简化,并利用泰勒展开方法进行了推导,从而完成了式子的化简以及对测量误差的修正。最后加上惩罚项进行群组变量选择,通过坐标下降算法迭代求解。之后通过一系列的模拟研究,分别在自变量之间是否存在相关性,还有因变量是否对自变量的变化敏感的情况下,从模型估计精确度和变量选择准确度两个方面,对是否修正了测量误差的模型,以及不同的群组变量选择方法进行了对比。模拟结果表明,使用了本文所提出的误差校准和群组变量选择方法处理可加模型中的测量误差和变量选择问题,得到的模型的估计精度有所改进,同时有利于正确选择有效变量以及剔除无关变量,且群组SCAD方法整体优于群组Lasso。最后将本文的方法应用到了一份自变量存在测量误差的实际数据中,在进行变量选择的同时建立了脂肪中的热量关于各自变量的可加模型。
【图文】:
在测量误差问题中,如果不懫用合理的模型进行处理,容易对分析结果带来严逡逑重的影响。举个例子,考虑一个响应变量y关于解释变量X的回归,X是[-2,2]逡逑上的均匀分布,r的均值为sin(2X),方差为4邋=邋0.10。在图2.1的上部,我模拟逡逑了邋200个该模型的观测值,从图中可以清晰地看出正弦曲线的样子。另外,假设观逡逑测值为W而不是X,其中W服从均值为X,方差为4/9的正态分布。在图2.1的下逡逑方,我对F与观测到的W的数据同样绘制了散点图。可以看到此时正弦曲线不再逡逑明显,数据的特征被观测误差所掩盖。为了避免类似问题出现,测量误差模型上逡逑的研宄就显得十分重要。逡逑测量误差模型有两种基本的分类方式。从自变量的假设,即数据结构的角度逡逑出发,测量误差模型可以分为函数模型(ftmctional邋modeling)和结构模型(structural逡逑modeling)^邋0逡逑?函数模型:自变量X是固定的,或者随机变量,后者的分布没有被建模。这逡逑7逡逑
的关键在于测量误差的分布决定了测量误差产生的影响,因而用来修正测量误差影逡逑响的恰当的方法取决于测量误差的分布。逡逑在图2.2中,左侧部分的(X,Y)是由模型¥=炖+N嫌郑恫模渲校艿腻义暇礜希剑埃讲睿村澹藉澹保缓鄄馕蟛睿P托甭剩﹀澹藉澹保鼐鄉M=0,误差项逡逑e均值为0,方差4=0.25。右侧部分的横坐标则为W,其中\V邋=邋X邋+邋U,且U逡逑是独立于X,均值0方差4邋=邋1的测量误差。可以看到左图中(X,Y)的点更加紧逡逑密地分散在一条直线附近,而右图中含测量误差的数组(W,Y)的分布则更为不稳逡逑定,不易看出其线性的特征,且其拟合的直线倾斜程度也比左图的小。逡逑关于测量误差对图中拟合直线斜率的影响,我们可以通过理论上的简单计算逡逑来解释。实际上,Y关于W的线性回归的最小二乘解不
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F224
本文编号:2709451
【图文】:
在测量误差问题中,如果不懫用合理的模型进行处理,容易对分析结果带来严逡逑重的影响。举个例子,考虑一个响应变量y关于解释变量X的回归,X是[-2,2]逡逑上的均匀分布,r的均值为sin(2X),方差为4邋=邋0.10。在图2.1的上部,我模拟逡逑了邋200个该模型的观测值,从图中可以清晰地看出正弦曲线的样子。另外,假设观逡逑测值为W而不是X,其中W服从均值为X,方差为4/9的正态分布。在图2.1的下逡逑方,我对F与观测到的W的数据同样绘制了散点图。可以看到此时正弦曲线不再逡逑明显,数据的特征被观测误差所掩盖。为了避免类似问题出现,测量误差模型上逡逑的研宄就显得十分重要。逡逑测量误差模型有两种基本的分类方式。从自变量的假设,即数据结构的角度逡逑出发,测量误差模型可以分为函数模型(ftmctional邋modeling)和结构模型(structural逡逑modeling)^邋0逡逑?函数模型:自变量X是固定的,或者随机变量,后者的分布没有被建模。这逡逑7逡逑
的关键在于测量误差的分布决定了测量误差产生的影响,因而用来修正测量误差影逡逑响的恰当的方法取决于测量误差的分布。逡逑在图2.2中,左侧部分的(X,Y)是由模型¥=炖+N嫌郑恫模渲校艿腻义暇礜希剑埃讲睿村澹藉澹保缓鄄馕蟛睿P托甭剩﹀澹藉澹保鼐鄉M=0,误差项逡逑e均值为0,方差4=0.25。右侧部分的横坐标则为W,其中\V邋=邋X邋+邋U,且U逡逑是独立于X,均值0方差4邋=邋1的测量误差。可以看到左图中(X,Y)的点更加紧逡逑密地分散在一条直线附近,而右图中含测量误差的数组(W,Y)的分布则更为不稳逡逑定,不易看出其线性的特征,且其拟合的直线倾斜程度也比左图的小。逡逑关于测量误差对图中拟合直线斜率的影响,我们可以通过理论上的简单计算逡逑来解释。实际上,Y关于W的线性回归的最小二乘解不
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F224
【参考文献】
相关期刊论文 前1条
1 ;L_(1/2) regularization[J];Science China(Information Sciences);2010年06期
本文编号:2709451
本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/2709451.html