几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计
本文选题:半参数模型 切入点:变量选择 出处:《山东大学》2016年博士论文
【摘要】:在现代科学研究的很多领域,比如医学研究、农业研究、社会调查、经济学、生物学以及流行病学等领域,常常会遇到纵向数据以及缺失数据等复杂数据。而且,随着数据收集能力的提高和成本的降低,以及数据存储技术的快速发展,数据的维数越来越大。另外,由于半参数模型能够避免完全非参数模型的“维数灾难”以及参数模型的模型假定错误风险,其应用范围十分的广泛。所以,研究高维复杂数据半参数模型的统计推断问题有重要的理论意义和实用价值,这也成为了当今统计界的热点问题。本文的第二章研究了纵向数据部分线性变系数模型的部分线性结构识别和变量选择问题。部分线性变系数模型因为其灵活性和简洁性被广泛地应用在纵向数据的分析中。然而,关于这个模型的推断方法都是基于如下假定:哪些变量对响应变量具有常数效应和哪些变量对响应变量具有变化效应是已知的,即假定协变量可以分为互不相交的两部分与其中xij(1)具有变化效应,xij(2)具有常数效应,然后所有的推断问题都是基于模型进行的。这个部分线性模型结构假定在实际建模中具有基础性的地位,因为模型拟合的有效性以及后续的理论推断都很大程度上取决于模型结构指定是否准确。然而,在实际应用中这种假定是不合理的,因为我们很难凭经验准确的确定某个变量具有变化效应还是常数效应,这就导致了现有方法的局限性。而且,在实际中,模型相关变量集合以及每个相关协变量xijk对响应变量yij的作用形式在响应变量的均值以及不同的百分位点处往往是不同的。例如,在第2.4节,分析纵向的AIDS数据时,我们发现协变量PreCD4对响应变量的低分位数具有变化效应,而对均值以及高分位数具有常数效应。另外,观测数据往往是存在异常点的,这就需要方法稳健。注意到,半参数部分线性变系数模型一定具有如下潜在的结构,其中,0(·)表示取值恒为零的函数,集合AV,AC以及Az是未知的,分别代表变化效应、非零常数效应以及零效应变量(即不相关变量)的指标集合,他们是互不相交的,且满足AV∪AC∪Az={1,…,p)。基于一个可以将均值回归、中位数回归、分位数回归及稳健的均值回归纳入同一个框架下的一般的M型损失函数以及惩罚型变量选择方法的思想,第二章提出了一个惩罚的M型回归,其能够一步实现非零系数αk(·),k∈Av与βk,k∈AC的估计和三种类型的选择:变化效应和非零常数效应选择,以及模型相关变量选择(即,识别未知的指标集合AV,AC以及Az)。该方法计算简便,而且通过选择不同的损失函数,可以更加清楚地刻画响应变量和协变量之间的关系以及做到对异常点稳健。理论方面,在一些正则条件下,建立了三种类型的选择的选择相合性以及系数估计的Oracle性质。选择相合表明新方法能够正确地识别变化效应、非零常数效应以及相关变量的概率趋近于1,即其中,AV,AV以及Az分别是Av,AC以及Az的估计。这里的Oracle性质意味着变系数函数αk(·),k∈AV的估计达到了最优的收敛速度,而非零的常数系数βk,k∈AC的估计具有与在部分线性结构及相关变量已知的情况下得到的估计相同的渐近分布。数值模拟结果和实际数据分析也都进一步证实了方法的有效性。本文的第三章考虑如下的分组加法多指标模型的稳健估计问题。其中,gk(·)是未知的联系函数,Y∈R为响应变量,X∈Rp是p维的预测向量,假定X可以被划分为K个互不相交的分组,即,是与Xk相对应的我们感兴趣的指标向量,随机误差(?)与X相互独立。Wang et al.(2015)也考虑了相同的模型。很明显,当K=1时,其变为传统的单指标模型。如果K=2而且g1(u)=u,其变为部分线性单指标模型。而且,在函数gk(·),k=1,…,K没有给定的情况下,指标参数βk,k=1,…,K是不可识别的。因此,我们对β,k=1,…,K的方向更加感兴趣,而不是其真实值。定义p×K矩阵其中,Opk×1是pk×1的零矩阵,k=1,…,K。很明显,针对上面的分组加法多指标模型,在PTX的条件下,Y与X是独立的。P的列空间被称为中心降维子空间(Li 1991,Wanget al.2015)。在假定如下的线性条件:成立时,Wang et al(2015)证明了线性最小二乘解与(β1T,…,βKT)T同方向,即,存在φk∈R,k=1,…,K,使得成立。然而,众所周知,最小二乘方法极易受到异常值以及重尾分布的影响。因此,探究如何利用稳健高效的复合分位数方法(Zou and Yuan 2008,Kai et al.2011)来改进最小二乘方法的缺陷是很有意义的。有趣的是,与最小二乘解βLs相似,我们发现,不需要借助任何的非参数方法,Y关于X的简单线性复合分位数回归系数可以提供βk,k=1,…,K的方向的相合以及渐近正态估计。具体地讲,假定,0τ1τ2…τq1,b= (b1,…,bq)T,η=(η1T,…,ηKT)T,ηk(ηk1,…,ηkpk)T,k=1,…,K,首先定义如下的总体形式的线性复合分位数损失函数其中,ρτj(u)=τju-u1(u0),是示性函数。令,(6,η)=arg minb,ηL(b,η),在相同的线性条件下,我们证明了η=(η1T,…,ηKT)T属于P的列空间,即,存在κ=(κ1,…,κK)T∈RK,使得下式成立这就意味着,K个指标向量βk,k=1,…,K的方向可以通过线性复合分位数回归的方法进行识别。接下来,基于样本{Xi,Yi}i=1n,L(b,η)的样本形式定义为然后,令(b,η)=arg minb,ηLn(b,η)。那么,η=(η1T,…,ηKT)T即是η的线性复合分位数估计,而且,我们证明了η的渐近正态性。另外,我们也通过bootstrap方法得到了估计量的近似分布。作为具体的应用,针对部分线性单指标模型的稳健估计问题,我们提出了一个不需要迭代的复合分位数估计方法,并且证明了渐近性质。另外,针对稀疏的高维模型的变量选择问题,我们提出了如下惩罚的复合分位数回归变量选择方法其中,pλ(·)是惩罚函数,本章主要考虑两个非凸的惩罚函数:SCAD(Fan and Li 2001)以及MCP(Zhang 2010),λ是非负的压缩参数。在p》n的情况下,我们建立了变量选择的Oracle性质,即其中,Bn(λ)表示压缩参数为λ时,上面惩罚的复合分位数目标函数的局部最小值集合,η°为oracle估计,即在真实模型下得到的估计。这里的Oracle性质意味着最终的估计量就是oracle估计本身以概率成立,而并不是仅仅模仿oracle估计。由于继承了复合分位数回归方法的优势,本章的方法在稳健性以及估计效方面具有优势。数值模拟结果以及实际数据的分析也证实了我们的方法。第四章考虑如下的d维的估计函数:其中,θ=(θ1,…,θp)τ是p维的待估参数,Qk(θ,y,x),k=1,…,d是给定的函数,其关于θ可能是非线性的,丁表示向量的转置。而且假定估计函数是条件无偏的,即,存在唯一的解θ0满足当条件估计函数是非线性的以及数据带有缺失时,统计分析会面临两方面的困难:完整数据分析的模型不可识别性以及非参数插补方法会失效。为了解决这些问题,针对上面的带有缺失数据的非线性条件估计方程,本章提出一个完全插补光滑距离。基于此,针对估计方程中的未知参数,我们进一步提出一个最小光滑距离估计方法。这个方法可以唯一的识别非线性模型中的参数,而且,尽管中间过程使用了多元核函数,但对于一个固定的、不趋向于零的窗宽,最终的估计依然具有而相合性以及渐近正态性。即,对任意的h00,当窗宽为h样本量为n时,在一些正则条件下,估计量θn,h*满足下式而且,依分布收敛到一个以h为指标而且以零为均值的正态分布为边际分布的紧的随机过程,对于h∈Hn={h0≥h0:nh4p/α≥C}一致成立,其中,C0,0α1。当然,对于趋向于零的窗宽,相合性以及渐近正态性也自然成立。因此,在模型是非线性的以及变量是多元的情况下,这个新方法具有很强的灵活性。第二章提出的方法有如下几方面的缺陷:第一,只适应于响应变量yij是连续的情况,在yij是离散数据的时候不可用;第二,尽管是针对纵向数据,但是并没有利用纵向数据的组内相关结构,而仅是简单地假定工作独立,这将造成估计效的损失;第三,尽管中位数回归以及稳健均值回归具有稳健性,但是却有估计效的不足。Wang et al.(2013)提出一个指数平方损失函数1-exp(-r2/h),其得分函数为注意到,φh(r)也是有界的得分函数,因为这里,压缩参数h控制着估计量的稳健性和有效性。具体的讲,对于较大的h,1-exp(-r2/h)≈r2/h,因此,最终的估计类似于最小二乘估计。而对于较小的h,大的|r|值不会产生太大的损失。因此,较小的h将会降低异常点对估计的影响。Wang et al.(2013)指出,相比较于其他稳健方法,例如,Huber估计、分位数回归(Koenker and Bassett 1978)以及复合分位数回归(Zou and Yuan 2008)等,φh(r)的表现要更好。第五章主要研究具有如下潜在结构的纵向数据广义部分线性变系数模型其中,g-1(·)是给定的联系函数。基于指数平方得分函数φh(r)以及广义估计方程的思想,本章提出了一个稳健以及高效的估计量,其可以同时进行变量选择以及模型部分线性结构的识别。更重要的是,其能够弥补第二章方法的缺陷。这个方法是基于一个新提出的光滑门限的(smooth-threshold)稳健广义估计方程,其可以充分地利用纵向数据的组内相关结构来提高估计效率,而且通过利用有界的指数得分函数以及基于杠杆点的(leverage-based)权重,其对来自于响应变量和协变量方向的异常点稳健。另外,通过利用一个额外的压缩参数h,新的估计量可以达到估计效率和稳健性的平衡。类似于第二章,在一些较弱的条件下,我们证明了其正确地选择相关变量以及识别模型部分线性结构的概率趋近于一。而且变系数以及非零常数系数可以被准确的估计,就像模型结构以及相关变量是预先已知的一样。数值模拟的结果也证实了我们的方法。
[Abstract]:......
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:O212.1
【相似文献】
相关期刊论文 前10条
1 杨丽霞;魏立力;;基于粗糙集方法的有序尺度变量选择[J];宁夏大学学报(自然科学版);2009年02期
2 赵宇;黄思明;;带有变量选择过程的分类模型误差分析[J];数学的实践与认识;2010年17期
3 樊亚莉;徐群芳;;稳健的变量选择方法及其应用[J];上海理工大学学报;2013年03期
4 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期
5 李树军,纪宏金;对应聚类分析与变量选择[J];地球物理学进展;2005年03期
6 陈黎明;赵永红;;转换函数未知时转换模型的变量选择[J];四川大学学报(自然科学版);2011年05期
7 刘民千,张润楚;超饱和设计的变量选择[J];南开大学学报(自然科学版);2000年03期
8 王进;;聚类分析中的距离与变量选择[J];山西财经大学学报;2007年S1期
9 张波;方国斌;;高维面板数据降维与变量选择方法研究[J];统计与信息论坛;2012年06期
10 高仁祥,张世英,刘豹;基于神经网络的变量选择方法[J];系统工程学报;1998年02期
相关会议论文 前6条
1 张俊华;方伟武;;调查表分析中变量选择的一些方法(英文)[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
2 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 李慷;席裕庚;;复杂过程系统中操作变量选择与定位的方法研究[A];1993年控制理论及其应用年会论文集[C];1993年
4 云永欢;王为婷;梁逸曾;;迭代的保留有信息变量来筛选最佳变量子集的一种多元校正变量选择方法[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
5 徐登;范伟;梁逸曾;;紫外光谱结合变量选择和偏最小二乘回归同时测定水中重金属镉、锌、钴[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
6 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
相关博士学位论文 前10条
1 吕晶;几类半参数回归模型的稳健估计与变量选择[D];重庆大学;2015年
2 王康宁;几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计[D];山东大学;2016年
3 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年
4 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年
5 刘吉彩;生存数据统计模型的变量选择方法[D];华东师范大学;2014年
6 樊亚莉;稳健变量选择方法的若干问题研究[D];复旦大学;2013年
7 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年
8 董莹;高维共线性统计模型的参数估计与变量选择[D];大连理工大学;2014年
9 叶飞;相对误差准则下的估计理论和变量选择方法的研究[D];清华大学;2013年
10 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年
相关硕士学位论文 前10条
1 赵冬琦;基于变量选择的股指期货对股票市场影响的实证研究[D];兰州大学;2015年
2 程勇;多水平模型的变量选择在农户人均收入数据中的应用[D];云南财经大学;2015年
3 邓秋玲;SCAD和ADS方法在比例风险模型中的应用[D];广西大学;2015年
4 韦新星;几种变量选择方法在Cox模型中的应用[D];广西大学;2015年
5 王唯;部分线性模型的变量选择问题研究[D];湘潭大学;2015年
6 徐国盛;若干模型的分位数变量选择[D];浙江财经大学;2016年
7 郭雪梅;部分线性模型中差分估计与SCAD的比较及带有异常点的非负变量选择[D];重庆大学;2015年
8 王艳;复共线性及异方差线性模型中的参数估计与变量选择[D];重庆大学;2015年
9 杨成敏;广义线性模型中的参数估计及变量选择方法研究[D];重庆大学;2015年
10 钟冬梅;线性模型中的变量选择及股票市场实证研究[D];重庆大学;2015年
,本文编号:1720569
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1720569.html