随着现代科技的迅猛发展,研究人员能够收集到大量的数据,其中包含大维数的变量,例如基因调控网络(gene regulatory network),基因表达序列(gene expression mi-croarray),单核苷酸多态性(single nucleotide poly morphism),金融数据(financial data),生物医学数据(biomedical data)等.在变量维数增大的同时,我们也发现,其中或许有很多变量是与响应变量无关的.这些数据中包含的信息很多,但除了有价值的信息之外,还会包含一些赘余的信息以及错误信息,如果在做统计数据分析时不加以选择地将这些全部的数据都考虑在内的话,那么不仅仅会增加计算的复杂度,同时也会对数据分析的结果产生不良影响.因此我们研究的意义就在于从这些复杂的数据中,在减少无用变量的同时能确保不丢失有效的数据信息.在超高维模型中,当变量的维数p关于样本个数n指数增长的时候,很多经典的统计方法就失效了,例如经典的最小二乘法,由于变量维数较高,使得样本协方差矩阵通常为奇异矩阵;如果极大似然估计方法中的似然方程个数远远小于未知参数的个数,就会导致参数的不可识别.因此,研究人员需要寻求创新的能够适应超高维数据发展变化的变量选择方法,于是出现了各种惩罚最小二乘法,惩罚极大似然法,惩罚经验似然法以及特征筛选法等等.本文总结了高维变量特征筛选和变量选择的方法,提出了新的特征筛选和变量选择的方法.本文主要考虑的几点问题包括:1).高维变量间的相关性,2).对已知先验信息的利用,3).model-free的考虑,4).高维下非参数方法的维数灾难,5).数据中存在异常值问题.出于这几方面的考量,促使我们提出了几种特征筛选与变量选择的方法.本文的主体结构分为五个章节.第一章中介绍了一些在不同模型下的特征筛选与变量选择问题,并简述了异常值检测的发展历程.第二章中利用经验似然与条件SIRS相结合,对高维变量提出一种新的特征筛选方法,解决了上述1),2),3)点问题.第三章中在一般单指标模型下进行变量选择,结合了参数和非参数方法的优点,有效避免了非参数模型的维数灾难问题,值得一提的是,我们通过利用模型转换,将复杂的难以估计的一般单指标模型转换为简单的易于处理的线性模型.第四章中对数据中存在的异常点进行检测,结合惩罚方法与经验似然方法,提出了稳健的变量选择方法.第五章中对全文进行了总结.1.第二章.我们利用经验似然方法结合条件的SIRS构造特征筛选.众所周知,经验似然是一种非参数推断方法,它基于一个数据驱动(data-driven)的似然比函数.与其他方法(例如极大似然)相比,经验似然方法不需要很多关于模型结构和误差分布的假设;并且可以利用很多约束信息或者先验分布信息.因此,可以将经验似然看作是一种model-free的方法.本章中利用了经验似然的这个性质,将其应用到非参数特征筛选中.为了解决第1)点问题,本章采用了条件的SIRS方法,对经典的SIRS中的边际相关性函数进行处理,减弱变量Xk与条件变量之间的相关性,达到降低假阳性率和假阴性率的目的.对于先验信息,第二章中充分考虑其重要性,将已知的重要变量作为条件变量来处理,不再对其进行变量选择,并且降低了备选变量Xk与已知重要变量之间的相关性.我们所提出的方法有效的结合了经验似然与条件的SIRS,构造了一种基于经验似然比的边际效应,并对其进行排序,达到特征筛选的目的.我们首先对SIRS进行研究分析发现它对于变量间的相关性依赖较强,因此自然而然地构造出条件的SIRS,减弱它对变量间相关性的依赖.所构造出的条件边际相关性函数能够在给定的条件集合Xc下度量Xk与响应变量之间的相关性.根据该相关性函数所构造的边际经验似然比lk(C)为:其中λ为拉格朗日乘子,gkl(C)=E2{[Xk-E(Xk|βcτxc)]1(YYl}(k ∈ D).对该边际量进行排序即可作为特征筛选的标准,它需要满足两点要求,其一当变量Xk是不重要变量的话,那么它所对应的边际经验似然比lk(C)应该很小;否则,若Xk是重要变量,那么它所对应的lk(C)应该很大.这两点要求能够保证在正确选择阈值时,能够将重要变量的边际经验似然比全部排在较靠前的位置并将其筛选出来.我们给出了该边际效应在两种情况下的样本表达形式,在该形式下,所选重要变量集为Mγn={k∈D:lk(C)≥γn}.为了保证所选子集能包含真实的活跃变量,我们分别给出了边际经验似然比lk(C)在总体水平和样本水平下的分布性质,定理2.1和定理2.2说明了当第k个变量为重要变量时,那么它所对应的边际经验似然比的值不会太小,因此在对边际值排序时能够被选择出来.由于我们的方法是一种特征筛选方法,因此在定理2.3中构造了确定筛选性,用以保证所有的重要变量能包含在我们所选的子集中,用以实施进一步的精细变量选择.在进行特征筛选时,除了保证真实重要变量都包含在所选子集中之外,还需要说明子集Mγn中所包含的变量个数不能过多,我们给出了定理2.5说明了这一性质.该方法保持了经验似然与SIRS两者的优势,所提出的条件边际经验似然比方法是model-free的,具有确定筛选性,有效解决了我们所提出的1),2),3)点问题.我们的模拟研究和实例数据分析结果也证明了该方法的优良性质.2.第三章.本章主要研究的是一般单指标模型:Y = G(XTβ,ε),其中G(·)代表未知的连接函数.该模型涵盖了很多半参数模型,包括单指标模型,异方差模型等,在生物医学,计量经济学等方面都有着广泛应用.一般单指标模型中响应变量Y与解释变量X之间仅仅通过一个线性组合XTββ相依赖.这个半参数模型的引入有效避免了我们提出的第4)点问题:非参数回归中的维数灾难问题,并且兼具非参数回归的灵活性与参数回归的可解释性.第三章的目的就是在该模型下进行变量选择.由于连接函数G(·)形式未知,误差与响应变量的关系也未知,因此直接处理该模型是有一定难度的.我们重新定义一个参数βF= ∑-1σ,根据引理3.1,可以看出在适当的线性条件下,βF与初始参数β是成比例的,我们只要选取非零的βF即可达到降维的目的.根据βF的表达式可以将其看做是一个线性模型的最小二乘估计,因此我们构造了一个转换模型F(Y)-1/2=XTη + ε,其中η为p维参数,F(·)为Y的分布函数,ε为新模型的误差,该误差的分布未知.这样,就将一个难以处理的一般单指标模型转换为一个普通的线性模型,变得更加容易估计.但是这个转换也损失了一些误差信息,因为在新模型中误差的分布未知,对该模型进行分析时用最小二乘估计之类的方法是不适用的,因为其对误差分布较为敏感.一种比较自然的想法就是把ε的概率密度函数用非参核估计表示出来.我们提出用一种稳健的轮廓似然方法来进行参数估计,该估计方法利用新误差的非参数核密度估计来构造似然函数,利用如下惩罚轮廓似然同时达到压缩变量和参数估计的目的在该参数估计下,最终所选择的重要变量子集为M0={j:ηj≠0,j= 1,…,p}.我们所提出的方法不需要对连接函数进行估计,因此更为简便,并且对于误差的假设更为宽泛.对厚尾误差和误差方差较大的情况都稳健.我们的理论性质定理3.1和定理3.2说明了所得到的估计具有相合性和渐进正态性,并且满足oraclc性质(定理3.3).这说明我们所得到的估计是收敛于真实参数的.在衡量变量选择优劣性方面,我们也展示了所选集合M0与真实重要变量集合在很大概率上是相等的,说明我们的方法可以正确地选择出真实模型.该方法的模拟研究与实例数据分析也证明了这些性质.3.第四章.针对我们提出的第5)个问题,在数据采集中,由于测量误差或是人为因素可能会产生异常值,如何在这些数据中剔除受污染的数据影响,得到一个好的变量选择和参数估计结果是我们本章研究的重点.在异常值存在的情况下,许多经典的统计方法都面临失效的风险,因此我们需要找到一种稳健的估计方法来识别出数据中的异常值.为了反映异常值的效应,我们采用均值漂移模型y = Xβ + γ + ε,其中y =(y1,…,yn)T是n元响应向量,X =(X1T.…,XnT)是设计矩阵.β =(β1.…,βp)T是p维回归系数,γ=(γ1,…,γn)T是n维的线性漂移参数.当γi= 0时表示第i个观测不是异常值;当γn ≠ 0时表示第i个观测是异常值.本章的目的是在该均值漂移模型下进行变量选择,参数估计和异常值检测,其中未知参数为β和γ,维数之和是n+p大于样本量n.因此从这个角度来看该方法是一个高维的变量选择问题.为达到本章的目的.我们首先进行稀疏性假设,我们认为大部分βj=0,说明大部分的变量是不重要的变量.γ是稀疏的.说明虽然数据受到了污染,但是还有相当一部分数据是正常数据.在剔除受污染数据之后仍然可以进行变量选择和参数估计.根据误差的分布性质,我们可以得到估计方程1/n∑i=1nXiT(yi-Xiβ0-γni)= 0,然后由该估计方程得到经验似然的约束条件.考虑到β和γ的稀疏性,我们采用惩罚经验似然的方法分别对β和γ进行压缩惩罚:其中 g(Zi:β,γ)=XiT(yi-Xiβ-γi),对 p2(|γi|)采取适应性的惩罚,用 adaptive lasso的惩罚函数,其初值采用SLTS估计得到的残差.该残差作为惩罚项的权重,其目的是为了保证非零的γi权重要大,而正常数据对应的γi权重要小.我们的方法具有高崩溃点,并且满足完全渐进有效性,理论结果证实了这一性质,最终所得的估计是具有相合性的,表明我们的方法所估计的参数与真实参数之间差异较小.模拟研究从异常值检测和参数估计两个方面入手,说明了我们方法在不同污染比例下以及不同异常值类型下表现的优异性.实例数据研究也表明我们的方法所选择的变量是稀疏的.4.第五章.对全文进行总结并对未来的研究进行规划.
【学位单位】:山东大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:O212
【文章目录】:中文摘要
英文摘要
第一章 绪论
1.1 变量选择和特征筛选
1.1.1 特征筛选
1.1.2 变量选择
1.2 经验似然
1.3 异常值
第二章 条件边际经验似然特征筛选
2.1 引言
2.2 SIRS
2.3 CELSIRS
2.3.1 情况1
2.3.2 情况2
2.3.3 条件集合选取
2.4 理论性质
2.4.1 假设条件
2.4.2 理论性质
2.5 模拟研究
2.5.1 模型和评定准则
2.5.2 模拟
2.5.3 结论
2.6 实例数据研究
2.7 引理和定理证明
第三章 一般高维单指标模型的变量选择
3.1 引言
3.2 方法
3.2.1 线性模型下的惩罚轮廓似然
3.2.2 一般单指标模型下的惩罚轮廓似然
3.3 调节参数选取以及算法
3.4 理论性质
3.5 模拟研究
3.6 实例数据分析
3.7 引理和定理证明
第四章 均值漂移模型的异常值识别及变量选择
4.1 引言
4.2 方法
4.2.1 惩罚经验似然
4.2.2 惩罚函数的选取
4.3 调节参数选取与算法
4.4 理论结果
4.5 模拟研究
4.6 实例数据分析
4.7 定理证明
第五章 总结与展望
参考文献
攻读博士学位期间完成论文情况
致谢
学位论文评阅及答辩情况表
【相似文献】
相关期刊论文 前10条
1 牟建波;刘赪;;基于惩罚方法的贝叶斯群组变量选择[J];绵阳师范学院学报;2017年02期
2 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
3 王银辉;徐文科;;基于风险函数评价自变量选择对预测的影响[J];哈尔滨师范大学自然科学学报;2012年01期
4 张春霞;李俊丽;;变量选择集成方法[J];工程数学学报;2019年01期
5 李太福;易军;苏盈盈;胡文金;余春娇;;基于特征子空间虚假邻点判别的软传感器模型变量选择[J];机械工程学报;2011年12期
6 张庆;李云霞;;函数型变量选择法用于空气质量影响因素实证分析[J];安庆师范大学学报(自然科学版);2017年04期
7 李扬;许文甫;马双鸽;;污染数据的稳健稀疏成组变量选择方法研究[J];统计与信息论坛;2018年06期
8 徐安察;王玮明;;应用统计类专业探究性教学模式探索与实践——以变量选择准则为例[J];赤峰学院学报(自然科学版);2014年19期
9 杨红;陈德棉;;个人住房抵押贷款违约相关变量选择[J];现代管理科学;2009年04期
10 钟先乐;樊亚莉;张探探;;基于t函数的稳健变量选择方法[J];上海理工大学学报;2017年06期
相关博士学位论文 前10条
1 初一;若干模型下的变量选择和特征筛选[D];山东大学;2018年
2 王延新;高维模型的变量选择与稀疏正则化[D];武汉大学;2013年
3 李子林;高维基因数据中的统计方法[D];清华大学;2016年
4 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年
5 秦志敏;我国上市公司财务预警变量选择研究[D];东北财经大学;2012年
6 袁晶;贝叶斯方法在变量选择问题中的应用[D];山东大学;2013年
7 姬永刚;分位数回归中的贝叶斯变量选择[D];东北师范大学;2012年
8 赵军;Expectile回归和最优资产组合中的变量选择问题[D];浙江大学;2017年
9 苏盈盈;基于核方法的非线性系统变量选择及其应用[D];重庆大学;2014年
10 王歆旸;几类整值时间序列模型的拟似然推断和变量选择问题[D];吉林大学;2017年
相关硕士学位论文 前10条
1 陶文惠;基于指数平方损失的两类半参数模型的变量选择[D];山东师范大学;2019年
2 何琪琪;带测量误差的可加模型的变量选择[D];厦门大学;2018年
3 胡蓉;基于随机Lasso的Meta分析[D];北京建筑大学;2019年
4 杨阳;SGL-SVM方法及其应用研究[D];厦门大学;2017年
5 杨小辉;集成变量选择在个人信用评分中的应用研究[D];天津财经大学;2018年
6 刘璐;引入基因型线性模型的变量选择[D];广西师范大学;2019年
7 崔琨鹏;基于Lasso的变量选择方法及其在贝叶斯网络中的应用[D];山东师范大学;2019年
8 武杰;Logistic回归中的随机Lasso方法[D];北京建筑大学;2018年
9 耿莹;Random Lasso在Logistic模型中的应用研究[D];暨南大学;2018年
10 郝宽;Lasso及其改进方法在变量选择中的优劣性研究[D];哈尔滨工业大学;2018年
本文编号:
2861048