基于非凸惩罚似然法的稳健回归和离群值检测研究
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:O212.1;C815
【部分图文】:
基于非凸惩罚似然法的稳健回归和离群值检测研究12在这里我们设置一个真实模型y=2x+1,通过rnorm函数随机生成50个数据,之后将第一个数据替换成(-8,8),显然这是一个有害的高杠杆离群值,观察前后最小二乘拟合曲线的变化。其中虚线为没有离群值存在时的拟合曲线,实线为加入(-8,8)这一个离群值之后的拟合曲线。显而易见,一个高杠杆离群值就使得拟合曲线大幅偏离了总体趋势,精确性严重下降。此时使用car包中的outlierTest函数可以非常轻易地通过学生化残差把这一个离群值识别出来,进一步可以结合帽子矩阵对杠杆效应或者说某一点的影响力进行评价,定义如下。对于k-1个自变量X1,X2,…Xk-1和因变量y,假设他们之间存在的关系如下。y=β0+β11+β22++βk11+ε(2.6)由最小二乘法计算使目标函数最小化的β,目标函数如下。Q(β)=||y-xβ||2(2.7)对目标函数Q(β)中的β求偏导,并令其为0,则可得到方程组如下。XTXβ=XTY(2.8)这个方程也被称为正则方程,其有且仅有一个解的充分必要条件是XTX的秩等于k。此时得到方程组的唯一的解。β=(XTX)1XTY(2.9)图2-1高杠杆离群值对OLS的影响
2理论基础13所以有y=xβ=x(XTX)1XTY=HY。β表示自变量,ε表示随机误差,e=y-表示模型2.1的残差,ri=√1被称为学生化残差。得到帽子矩阵H,H=H(X)=X(XTX)1X。令hi是H对角线元素,则有如下公式。hi=1n+(xix)2∑(xix)n2i=1,i=1,2,3,....,n(2.10)hi表示第i个观测值的帽子值,可以用来代表第i个观测值的权势,帽子矩阵在回归诊断,残差分析中有着较为广泛的运用,讨论帽子矩阵中元素的性质非常重要。此时使用influencePlot函数绘图。第一个数据已被标记出来,是高杠杆点,但处在坐标轴下方的第44个数据也被标出,实际上它是个正常值,所以此时已经出现了一定程度的淹没效应。我们还可以使用Cook距离来评价点对系数的影响程度大小,公式如下。=22(1)2(2.11)图2-2标准化残差与帽子值
库克距离
【参考文献】
相关期刊论文 前8条
1 尚华;张贝贝;纪宏;;一种新的基于回归分析的异常值检测[J];河南大学学报(自然科学版);2015年06期
2 崔立功;;基于M估计的线性回归模型的统计诊断[J];牡丹江师范学院学报(自然科学版);2014年04期
3 姜佃高;张娟娟;葛永慧;;稳健估计方法在多元线性回归中的有效性研究[J];统计与决策;2014年18期
4 戴前伟;江沸菠;董莉;;基于汉南-奎因信息准则的电阻率层析成像径向基神经网络反演[J];地球物理学报;2014年04期
5 李扬;曾宪斌;;面板数据模型的惩罚似然变量选择方法研究[J];统计研究;2014年03期
6 卢二坡;黄炳艺;;基于稳健MM估计的统计数据质量评估方法[J];统计研究;2010年12期
7 鲍彦平;王彤;何大卫;;基于秩次的R类稳健回归[J];中国卫生统计;2007年06期
8 王斌会,陈一非;基于稳健马氏距离的多元异常值检测[J];统计与决策;2005年06期
相关博士学位论文 前2条
1 勾建伟;惩罚回归方法的研究及其在后全基因关联研究中的应用[D];南京医科大学;2014年
2 王彤;线性回归模型的稳健估计及多个异常点诊断方法研究[D];第四军医大学;2000年
相关硕士学位论文 前4条
1 毛沥悦;部分线性模型和广义线性模型的惩罚经验似然[D];陕西师范大学;2018年
2 崔芳;计量经济建模中的稳健回归方法及其应用研究[D];山东财经大学;2015年
3 原少斌;回归分析中异常值诊断方法的比较研究[D];兰州商学院;2014年
4 王海娜;线性回归模型的若干稳健估计方法及应用实例[D];山东大学;2013年
本文编号:2864728
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/2864728.html