基于非凸惩罚似然法的稳健回归和离群值检测研究

发布时间:2020-11-01 00:18
   目前最常用的普通最小二乘估计通过极小化离差平方和,寻找最佳的参数估计值,这可以得到一个比较理想的结果。但现实统计数据中普遍存在离群值,最小二乘回归方法并不能准确进行统计分析。甚至只要有一个离群值,都会负面干扰到估计结果的精确性。而能保证高崩溃点和高有效性的稳健回归方法就显示出重要的现实意义。本文使用的基于惩罚似然的稳健回归方法在常规的线性回归模型中加入一个均值漂移参数,使用正则化方法将该参数稀疏化。通过测试发现,使用非凸惩罚可以更好地处理高杠杆离群值,而一个观测值是不是离群值就等同于检验均值漂移参数是否非0,之后在因变量中减去确定的均值漂移参数,使用最小二乘法得到对回归参数的估计。本文使用M、S、JD三个指标综合评价各方法在识别离群值方面的表现,使用均方参数误差来评价估计模型对真实模型的拟合效果。通过将表现更为优秀的基于非凸惩罚似然的稳健回归方法与REWLS估计、MM估计对比,发现基于非凸惩罚似然的稳健回归的确在稳健性和离群值检测能力上具有更好的性质,崩溃点更高,可以解决一个或多个高杠杆离群值存在时,常用的稳健回归方法效果不佳的问题。该方法在模拟测试中获得了更为可靠的结果,同时本文也对其中存在的问题进行了讨论。本文将初步测算基于惩罚似然的稳健回归方法的经验崩溃点和有效性,进一步完善该方法。本文还尝试使用稳健马氏距离分别结合REWLS估计、MM估计的残差进行离群值探测,发现这样的做法在淹没效应上表现更好,可以纠正少部分估计本身的错误识别,并且崩溃点要稍高一些。
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:O212.1;C815
【部分图文】:

离群值,杠杆


基于非凸惩罚似然法的稳健回归和离群值检测研究12在这里我们设置一个真实模型y=2x+1,通过rnorm函数随机生成50个数据,之后将第一个数据替换成(-8,8),显然这是一个有害的高杠杆离群值,观察前后最小二乘拟合曲线的变化。其中虚线为没有离群值存在时的拟合曲线,实线为加入(-8,8)这一个离群值之后的拟合曲线。显而易见,一个高杠杆离群值就使得拟合曲线大幅偏离了总体趋势,精确性严重下降。此时使用car包中的outlierTest函数可以非常轻易地通过学生化残差把这一个离群值识别出来,进一步可以结合帽子矩阵对杠杆效应或者说某一点的影响力进行评价,定义如下。对于k-1个自变量X1,X2,…Xk-1和因变量y,假设他们之间存在的关系如下。y=β0+β11+β22++βk11+ε(2.6)由最小二乘法计算使目标函数最小化的β,目标函数如下。Q(β)=||y-xβ||2(2.7)对目标函数Q(β)中的β求偏导,并令其为0,则可得到方程组如下。XTXβ=XTY(2.8)这个方程也被称为正则方程,其有且仅有一个解的充分必要条件是XTX的秩等于k。此时得到方程组的唯一的解。β=(XTX)1XTY(2.9)图2-1高杠杆离群值对OLS的影响

残差图,帽子,残差,帽子矩阵


2理论基础13所以有y=xβ=x(XTX)1XTY=HY。β表示自变量,ε表示随机误差,e=y-表示模型2.1的残差,ri=√1被称为学生化残差。得到帽子矩阵H,H=H(X)=X(XTX)1X。令hi是H对角线元素,则有如下公式。hi=1n+(xix)2∑(xix)n2i=1,i=1,2,3,....,n(2.10)hi表示第i个观测值的帽子值,可以用来代表第i个观测值的权势,帽子矩阵在回归诊断,残差分析中有着较为广泛的运用,讨论帽子矩阵中元素的性质非常重要。此时使用influencePlot函数绘图。第一个数据已被标记出来,是高杠杆点,但处在坐标轴下方的第44个数据也被标出,实际上它是个正常值,所以此时已经出现了一定程度的淹没效应。我们还可以使用Cook距离来评价点对系数的影响程度大小,公式如下。=22(1)2(2.11)图2-2标准化残差与帽子值

基于非凸惩罚似然法的稳健回归和离群值检测研究


库克距离
【参考文献】

相关期刊论文 前8条

1 尚华;张贝贝;纪宏;;一种新的基于回归分析的异常值检测[J];河南大学学报(自然科学版);2015年06期

2 崔立功;;基于M估计的线性回归模型的统计诊断[J];牡丹江师范学院学报(自然科学版);2014年04期

3 姜佃高;张娟娟;葛永慧;;稳健估计方法在多元线性回归中的有效性研究[J];统计与决策;2014年18期

4 戴前伟;江沸菠;董莉;;基于汉南-奎因信息准则的电阻率层析成像径向基神经网络反演[J];地球物理学报;2014年04期

5 李扬;曾宪斌;;面板数据模型的惩罚似然变量选择方法研究[J];统计研究;2014年03期

6 卢二坡;黄炳艺;;基于稳健MM估计的统计数据质量评估方法[J];统计研究;2010年12期

7 鲍彦平;王彤;何大卫;;基于秩次的R类稳健回归[J];中国卫生统计;2007年06期

8 王斌会,陈一非;基于稳健马氏距离的多元异常值检测[J];统计与决策;2005年06期


相关博士学位论文 前2条

1 勾建伟;惩罚回归方法的研究及其在后全基因关联研究中的应用[D];南京医科大学;2014年

2 王彤;线性回归模型的稳健估计及多个异常点诊断方法研究[D];第四军医大学;2000年


相关硕士学位论文 前4条

1 毛沥悦;部分线性模型和广义线性模型的惩罚经验似然[D];陕西师范大学;2018年

2 崔芳;计量经济建模中的稳健回归方法及其应用研究[D];山东财经大学;2015年

3 原少斌;回归分析中异常值诊断方法的比较研究[D];兰州商学院;2014年

4 王海娜;线性回归模型的若干稳健估计方法及应用实例[D];山东大学;2013年



本文编号:2864728

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2864728.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c942a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com