高维模型的约束变量选择和条件特征筛选
发布时间:2017-03-24 17:15
本文关键词:高维模型的约束变量选择和条件特征筛选,,由笔耕文化传播整理发布。
【摘要】:高维数据频繁地出现在社会生活和科学研究的诸多领域,例如生物医学成像、X线断层摄影术、以及金融学和地球科学等等。在高维数据中,协变量或者参数的个数p大于样本个数n。传统的统计推断方法已经不再适用这种“大p,小n”数据。而稀疏性原则假设仅有少量预测变量对响应变量有影响,在这个原则下,现在已经有很多针对高维模型的变量选择和特征筛选方法。在实际问题研究中,根据先前的调查研究和经验常识,研究者们经常可以假设参数满足某些约束条件或者确定一些重要预测变量。本文旨在充分利用这些约束条件和己知活跃协变量信息,继而提高参数估计和变量选择的效果,降低协变量之间相关性对特征筛选的影响。在本文第二章中,我们研究了高维模型中参数约束下的变量选择问题。参数约束是实际研究过程中常见的假设条件,研究者们根据问题背景和经验常识可以确定参数满足一定的限制条件。例如Fan et a1.(2012)考虑证券投资组合问题,研究如何分配资金投资p个不同的证券以达到最大的回报。这个问题中就暗含有一个线性等式参数约束∑jp=1βj=1。合理利用参数的约束条件,可以提高参数估计和变量选择的效果,比如经典统计中的约束最小二乘方法。在第二章,我们具体研究了约束广义Lasso方法(简称为lcg-lasso),讨论了相应的对偶问题以及算法实现问题,还得到了约束广义Lasso的自由度公式,并以此探讨了调和参数的选择问题。具体地说,在高维线性模型中,我们考虑如下的约束优化问题,其中‖·‖d表示向量的ld范数,λ≥0为调和参数,Rs×p和f∈Rs分别是根据所研究的问题具体设定的惩罚矩阵,约束矩阵和约束向量。选择合适的D,C,d,E和f,使得Lasso(Tibshirani,1996)和它的一系列变体,例如adaptivelasso (Zou,2006), fused lasso (Tibshirani et al.,2005)和广义Lasso (Tibshirani and Tay-lor,2011)等,以及Fan et al.(2012)中的约束型问题都成为了lcg-lasso的特例。首先,我们考虑X为列满秩矩阵情形,忽略不影响优化求解的常数,根据拉格朗日对偶理论得到lcg-lass o的对偶问题为范数。而且,我们还得到原始解β和对偶解之间的关系,很显然,1cg-lasso的对偶问题是标准二次规划。而且与原问题相比,其对偶问题所含的未知参数个数少,所有的约束条件也都是简单的箱约束,所以我们能够很方便地用2.4节中简单有效的坐标下降法进行求解。另一方面,我们还研究了约束广义Lasso的自由度问题,并通过最小化风险估计选择最优调和参数。首先,我们根据对偶问题的KKT条件,定义了对偶解边界集并按照对偶解和原始解的关系,得到原始解的边界集4和召,其中4是Dβ不等于0的下标集合,B是不等式约束等号成立的下标集合。通过对偶解的边界集及其性质,我们得到了对偶解的精确表达式,继而得到原始解β和拟合μ=Xβ的表达式。我们在2.3节中证明了对偶解的边界集和β分别是关于y的局部常数函数和连续函数,以及应的一致Lipschtiz性,最终得到μ做为y的函数是连续且几乎处处可微的。因此,根据Stein引理(Stein,1981),我们证明得到,当y服从正态分布时,对于任意的的自由度表达式,G的零空间的维数。但是,在实际应用中,设计矩阵X不一定满足列满秩的条件。在这种情形下,上述方法不再适用。因此,在第二章中,我们提出用简单的类Elastic Net方法来处理非列满秩设计矩阵问题。我们在原问题lcg-lasso上额外增加一个l2惩罚项,即其中70为一较小的正数。假设β*是上述优化问题的解,我们得到μ=Xβ*的自由度就可以通过最小化风险估计来选择最优的调和参数。鉴于Mallows'Cp准则和AIC/BIC准则之间的关系,我们定义如下BIC类型的准则,其中ωn。是一个可选常数。当上述准则为Mallows'Cp准则或者AIC准则,当ωn。=log(n),BIC-类型准则即为通常的BIC准则。于是,我们可以选择使得上述BIC类型准则达到最小值的λ为约束广义Lasso (lcg-lasso)的最优调和参数。在第三章,我们研究了已知部分活跃协变量或者强相关的预测变量条件下的超高维参数模型的特征筛选问题。Fan and Lv(2008)首次强调了特征筛选在超高维数据分析中的重要性,建议两阶段变量选择来提高变量选择和参数估计的效率,即先对超高维数据进行粗略的大幅度降维(特征筛选,feature screening),再进行精细的变量选择。自Fanand Lv(2008)提出SIS (Sure Independence Screening)特征筛选方法这一开创性工作以来,大量文献就开始致力于超高维数据中特征筛选问题的研究。大多数的特征筛选方法都是通过排序边际效应进行筛选,例如预测变量与响应变量的边际相关性。但是,简单的边际效应特征筛选方法深受预测变量之间相关性的影响,例如舍弃了隐藏型重要变量,错误选入了与活跃预测变量强相关的非活跃预测变量。在现实应用中,基于一些预先研究和经验常识,研究者们能够事先确定一些与所研究的响应变量相关的预测变量。在第三章中,我们利用这一条件信息,在超高维线性和广义线性模型中提出了新的基于条件边际经验似然的条件特征筛选方法(简称为CMELR-CSIS)。假设XC是事先确定的活跃预测变量集合,考虑如下的矩条件:对于任意向量或者矩阵βC,其中αj可视为中心化变量与响应变量Y之间的相关系数。根据上述矩条件,我们构建条件边际经验似然,并得到如下条件边际经验似然比,是拉格朗日乘子,并满证明了真实参数的边际经验似然比很小,而在错误参数值处的边际经验似然比将以很大的概率发散,所以我们考虑用lj(0)作为特征筛选工具。但是gij(c)(0)中包含未知的参数1,所以我们给出了在线性条件下lj(0)的估计值lj(0)。最终,我们选择集合作为剩余活跃指标集的估计,其中γn是预先定义的阈值,A表示模型中所有活跃预测变量的下标集合。我们称这种特征筛选方法为基于条件边际经验似然比的条件特征筛选,简称为CMELR-CSIS。CMELR-CSIS因为继承了经验似然方法的优点,所以不需要太多关于分布的假设。而且所需的算法简单,只需要计算零点处的的条件边界经验似然比,不需要估计参数以及迭代算法。CMELR-CSIS具备sure screening性质,并在合适的阂值下,也能很好地控制所选入的预测变量个数。大量的数值模拟研究验证了,在存在强相关预测变量情况下,以前的非条件特征筛选方法表现不尽如意或者直接崩溃,但是新条件特征筛选方法CMELR-CSIS的表现却极为出色。通过不同的模型和条件设置,我们再次证实了条件特征筛选方法的有效性,验证了CMELR-CSIS对条件指标集C的选择具有稳健性,并且在没有任何条件集合的信息时,提供了有效的两阶段方法来构建CMELR-CSIS。在第四章,我们主要考虑超高维多指标异方差模型中均值函数和方差函数的特征筛选问题。现有的特征筛选方法主要是针对回归模型中均值函数的活跃预测变量。但是,方差函数在统计理论和应用中有着至关重要的地位。虽然Zhu et al.(2011)和Lin etal.(2013)在没有模型结构的条件下,筛选得到活跃预测变量集合的估计,但是不能具体区分哪些活跃预测变量是属于均值函数,哪些活跃预测变量是属于方差函数。在本文第四章,我们主要研究如下超高维多指标异方差模型,其中gμ(·)和gv(·)表示未知的光滑函数,X为p维的预测变量向量,ε与预测变量独立,其均值为E(ε)=0,方差为E显然,很多流行的半参数回归模型都是上述多指标模型的特例,例如部分线性模型,单指标模型和部分线性单指标模型等等。首先,我们证明了文中第三章中的CMELR-CS IS可以自然拓展到多指标同方差模型或者多指标异方差模型中均值函数的特征筛选。这是因为,在一定正则条件下,我们证明下列等价条件成立,其中Aμ。表示均值函数的活跃指标集。于是,我们根据条件边际经验似然比得到了目标集合的估计其中γn为预先给定的阈值参数,lj是条件边际经验似然比的估计值,表示满足等式的拉格朗日乘子。为了不产生混淆,我们称针对多指标模型中均值函数的这种条件特征筛选方法为EL-CFS。另一方面,关于异方差模型中方差函数的特征筛选,由于平方Y2之间相关性同时包含均值函数和方差函数的指标信息。而且,在正则条件下,我们证明了其中是上述异方差模型的活跃指标集,集合Av表示模型中方差函数的活跃指标集。因此,我们可用作为目标集合的估计,其中γn是预先确定的阈值参数,需要注意的是,此时估计。由于此条件特征筛选方法是EL-CFS的修正版,所以我们简称之为:mEL-CFS。显然,可以做为异方差模型中方差函数的活跃指标集D∩Av的估计。而且,我们证明了集合是方差函数活跃指标集的一个相合估计。因此,通过EL-CFS和mEL-CFS两步条件特征筛选,我们能够分别得到多指标异方差模型中均值函数和方差函数活跃指标集的相合估计。EL-CFS 和 mEL-CFS避免了多指标异方差模型中未知的link函数gμ和gv的非参数估计,而且在强相关的协变量情况下,依然能很好的工作。理论结果表明当模型维数以样本容量的指数级增长时,条件特征筛选方法EL-CFS和mEL-CFS仍然具有sure screening性质。在数值模拟研究中,通过不同的模型设置证实了EL-CFS和mEL-CFS的有效性。而且,作为条件特征筛选方法,EL-CFS和mEL-CFS对条件预测变量集合选择具有稳健性。
【关键词】:变量选择 对偶 超高维数据 经验似然 特征筛选 异方差 多指标
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:O212.1
【目录】:
- 中文摘要7-12
- 英文摘要12-18
- 第一章 绪论18-28
- 1.1 高维模型变量选择和自由度18-23
- 1.1.1 变量选择18-20
- 1.1.2 自由度20-23
- 1.2 超高维模型特征筛选23-26
- 1.3 半参数异方差回归模型26-28
- 第二章 线性约束广义Lasso的对偶和自由度28-50
- 2.1 引言28-30
- 2.2 对偶问题以及解的性质30-34
- 2.2.1 对偶问题30-32
- 2.2.2 KKT条件与边界集32-33
- 2.2.3 估计和拟合33-34
- 2.3 自由度34-37
- 2.4 算法实现37-39
- 2.5 模拟研究39-41
- 2.6 小结41-42
- 2.7 附录:定理的证明42-50
- 第三章 超高维参数回归模型的条件特征筛选50-83
- 3.1 引言50-52
- 3.2 条件边际经验似然52-60
- 3.2.1 线性模型下的条件边际经验似然53-56
- 3.2.2 广义线性模型下的条件边际经验似然56-58
- 3.2.3 基于条件边际经验似然比的条件特征筛选方法58-60
- 3.3 理论性质60-63
- 3.4 模拟研究63-72
- 3.4.1 线性回归模型64-65
- 3.4.2 线性异方差模型65-67
- 3.4.3 广义线性回归模型67
- 3.4.4 条件集合的稳健性和选择67-72
- 3.5 小结72-74
- 3.6 附录:引理和定理的证明74-83
- 第四章 半参数异方差模型的条件特征筛选83-103
- 4.1 引言83-85
- 4.2 特征筛选方法85-90
- 4.2.1 均值函数的条件特征筛选方法——EL-CFS85-88
- 4.2.2 方差函数的条件特征筛选方法——mEL-CFS88-90
- 4.3 EL-CFS和mEL-CFS的理论性质90-93
- 4.4 数值模拟研究93-98
- 4.5 小结98-100
- 4.6 附录:定理的证明100-103
- 参考文献103-111
- 致谢111-112
- 攻读博士学位期间完成论文情况112-113
- 附件113
【相似文献】
中国期刊全文数据库 前1条
1 韩立新;孔繁玲;;品种间双列杂交的Gardner-Eberhart模式的参数估计量方差与预测变量方差[J];北京农业大学学报;1989年01期
中国重要会议论文全文数据库 前2条
1 雷雳;李洋;;欺负情境中几种角色行为的预测变量[A];第十届全国心理学学术大会论文摘要集[C];2005年
2 陈作松;周爱光;;运动员倦怠的测量及其预测变量的实证研究[A];第九届全国体育科学大会论文摘要汇编(2)[C];2011年
中国博士学位论文全文数据库 前1条
1 胡琴琴;高维模型的约束变量选择和条件特征筛选[D];山东大学;2015年
本文关键词:高维模型的约束变量选择和条件特征筛选,由笔耕文化传播整理发布。
本文编号:265929
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/265929.html