当前位置:主页 > 科技论文 > 数学论文 >

广义线性模型中的参数估计及变量选择方法研究

发布时间:2019-03-20 14:02
【摘要】:模型选择问题是统计分析中一个至关重要的问题。如何使得建立的模型更加精确是所有学者研究的重中之重。当模型中存在复共线性问题时,怎样解决这样的问题是现目前研究中的关键。本文分成两种情况对广义线性模型中的这一问题进行分析并提出在各种情况下应该如何处理。第一种情况是当模型中我们所选择的每一个变量都不可缺少,同时这些变量之间又具有一定的多重共线性问题时,我们通常选择岭估计方法,因为岭估计不仅仅能够选出所有的变量,同时岭估计还对模型进行了一定的压缩惩罚,能够解决多重共线性问题。但是由于岭估计中含有岭参数,岭参数的选取直接影响模型的精确度。所以本文通过对岭参数在一般线性模型和广义线性模型中的参数估计方法进行总结,同时提出一种新的岭参数估计方法,且将这些参数估计方法运用于Logistic岭回归模型中,进行分析。运用Monte Carlo模拟,通过比较模型的均方误差(MSE)、参数的均值、参数的标准差(SD)来进行比较分析,得到新提出的参数估计方法在Logistic回归模型中,不仅具有相对较小的MSE,并且是这些参数估计方法中最稳定的一种,从而可以得到新提出的岭参数估计方法相对较优。第二种情况是当模型是含有一些对模型无用变量的大型模型时,需要对模型中的变量进行筛选,通过压缩惩罚使得一些解释变量的回归系数压缩到零,进而达到变量选择的目的。本文先对文献中提出的一些经典的变量选择方法LASSO、SCAD、Elastic Net和MCP进行综述。并且由于在Breheny和Huang(2011)这篇文章中曾指出在一般线性回归模型和Logistic回归模型下,MCP都相对优于LASSO和SCAD,所以本文将这四种变量选择方法运用到Poisson回归模型中并在不同情况下进行了模拟实验。当变量之间是相对独立的,得到MCP能够准确的找出解释变量中系数不为零的变量,同时选出的其他不相关的变量是最少的;当变量之间有一定的相关关系时,MCP同时也是这几种变量选择方法中能够最准确的找出所需的变量;当变量之间含有一定的组效应时,MCP相对效果也是非常的理想。因此我们得到MCP变量选择方法,相对而言优于LASSO、SCAD和Elastic Net变量选择方法。
[Abstract]:Model selection is one of the most important problems in statistical analysis. How to make the model more accurate is the most important research of all scholars. When there is a polycollinearity problem in the model, how to solve this problem is the key in the present research. This paper analyzes this problem in generalized linear model in two cases and puts forward how to deal with it in all kinds of cases. In the first case, when every variable we choose in the model is indispensable and there are some multicollinearity problems between these variables, we usually choose the ridge estimation method. Because ridge estimation not only can select all the variables, but also carries on some compression penalty to the model, which can solve the multi-collinearity problem. However, because ridge estimation contains ridge parameters, the selection of ridge parameters directly affects the accuracy of the model. So this paper summarizes the methods of ridge parameter estimation in general linear model and generalized linear model, and proposes a new ridge parameter estimation method, and applies these methods to Logistic ridge regression model. Carry out analysis. Monte Carlo simulation is used to compare and analyze the mean square error of (MSE), parameters and the standard deviation of parameters (SD). The new method of parameter estimation in Logistic regression model has not only a relatively small MSE,. And it is one of the most stable methods of parameter estimation, so that the proposed ridge parameter estimation method is relatively optimal. The second case is that when the model is a large model that contains some useless variables to the model, the variables in the model need to be screened, and the regression coefficients of some explanatory variables are compressed to zero by compression punishment. And then achieve the purpose of variable selection. In this paper, some classical variable selection methods, LASSO,SCAD,Elastic Net and MCP, are reviewed. And as pointed out in Breheny and Huang (2011), under the general linear regression model and Logistic regression model, MCP is relatively superior to LASSO and SCAD,. So this paper applies these four variable selection methods to Poisson regression model and carries out simulation experiments under different circumstances. When the variables are relatively independent, it is obtained that MCP can accurately find out the variables whose coefficients are not zero in the explanatory variables, and at the same time, the other unrelated variables are the least. When there is a certain correlation between variables, MCP is also the most accurate selection method to find out the required variables; when there is a certain group effect between variables, the relative effect of MCP is also very ideal. Therefore, we get the MCP variable selection method, which is better than the LASSO,SCAD and Elastic Net variable selection method.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212

【相似文献】

相关期刊论文 前10条

1 杨丽霞;魏立力;;基于粗糙集方法的有序尺度变量选择[J];宁夏大学学报(自然科学版);2009年02期

2 赵宇;黄思明;;带有变量选择过程的分类模型误差分析[J];数学的实践与认识;2010年17期

3 樊亚莉;徐群芳;;稳健的变量选择方法及其应用[J];上海理工大学学报;2013年03期

4 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期

5 李树军,纪宏金;对应聚类分析与变量选择[J];地球物理学进展;2005年03期

6 陈黎明;赵永红;;转换函数未知时转换模型的变量选择[J];四川大学学报(自然科学版);2011年05期

7 刘民千,张润楚;超饱和设计的变量选择[J];南开大学学报(自然科学版);2000年03期

8 王进;;聚类分析中的距离与变量选择[J];山西财经大学学报;2007年S1期

9 张波;方国斌;;高维面板数据降维与变量选择方法研究[J];统计与信息论坛;2012年06期

10 高仁祥,张世英,刘豹;基于神经网络的变量选择方法[J];系统工程学报;1998年02期

相关会议论文 前6条

1 张俊华;方伟武;;调查表分析中变量选择的一些方法(英文)[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年

2 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

3 李慷;席裕庚;;复杂过程系统中操作变量选择与定位的方法研究[A];1993年控制理论及其应用年会论文集[C];1993年

4 云永欢;王为婷;梁逸曾;;迭代的保留有信息变量来筛选最佳变量子集的一种多元校正变量选择方法[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

5 徐登;范伟;梁逸曾;;紫外光谱结合变量选择和偏最小二乘回归同时测定水中重金属镉、锌、钴[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

6 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

相关博士学位论文 前10条

1 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年

2 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年

3 刘吉彩;生存数据统计模型的变量选择方法[D];华东师范大学;2014年

4 樊亚莉;稳健变量选择方法的若干问题研究[D];复旦大学;2013年

5 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年

6 董莹;高维共线性统计模型的参数估计与变量选择[D];大连理工大学;2014年

7 叶飞;相对误差准则下的估计理论和变量选择方法的研究[D];清华大学;2013年

8 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年

9 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年

10 姬永刚;分位数回归中的贝叶斯变量选择[D];东北师范大学;2012年

相关硕士学位论文 前10条

1 赵冬琦;基于变量选择的股指期货对股票市场影响的实证研究[D];兰州大学;2015年

2 程勇;多水平模型的变量选择在农户人均收入数据中的应用[D];云南财经大学;2015年

3 邓秋玲;SCAD和ADS方法在比例风险模型中的应用[D];广西大学;2015年

4 韦新星;几种变量选择方法在Cox模型中的应用[D];广西大学;2015年

5 王唯;部分线性模型的变量选择问题研究[D];湘潭大学;2015年

6 徐国盛;若干模型的分位数变量选择[D];浙江财经大学;2016年

7 郭雪梅;部分线性模型中差分估计与SCAD的比较及带有异常点的非负变量选择[D];重庆大学;2015年

8 王艳;复共线性及异方差线性模型中的参数估计与变量选择[D];重庆大学;2015年

9 杨成敏;广义线性模型中的参数估计及变量选择方法研究[D];重庆大学;2015年

10 钟冬梅;线性模型中的变量选择及股票市场实证研究[D];重庆大学;2015年



本文编号:2444284

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2444284.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98657***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com