若干特征筛选方法及其模拟研究
本文关键词:若干特征筛选方法及其模拟研究
更多相关文章: 变量选择 特征筛选 确定筛选性质 排序相合性 选择相合性 模拟研究
【摘要】:在实际中,为了应用回归分析方法,人们通常首先要对回归自变量进行选择,以剔除掉对因变量的影响较弱的自变量。当自变量的维数p比样本容量n小或者p相对于n来说不是很大时,变量选择问题有许多成熟的有效的方法,如Lasso、Adaptive Lasso、Elastic Net、SCAD等方法。近几年来,随着数据收集技术的发展以及数据收集成本的下降,高维数据甚至超高维数据越来越多地出现在科学的各个领域中。所谓的超高维数据是指p远远大于n的情况。这所谓的“大p小n”问题给上述方法带来了严重的挑战,如统计的精确性、模型的可解释性、算法的复杂度等。针对这样的超高维数据,统计学者们提出了所谓的特征筛选方法,即从这非常多的p个变量中剔除对因变量影响较小的变量,这样就可以对保留下来的自变量进行精确的选择并估计参数。经常使用的一些特征筛选方法包括:SIS、SIRS、NRS、DC-SIS、RRCS等。统计学家已经证明这些方法具有良好的性质,如确定筛选性质、选择相合性质等,这就可以确保它们能进行有效的特征筛选。本文旨在对这些常用的特征筛选方法进行全面的介绍与比较分析。文章首先详细地介绍这些特征筛选方法,包括它们的理论依据、估计量、筛选准则以及理论性质等,并对它们采用的准则、适用的模型范围、以及优缺点等进行了比较分析;从理论上对这些方法以及它们的异同有了明确的认识。然后,文章又通过数值模拟研究对这些方法的筛选效果进行了对比分析。本文设置的模型考虑了自变量之间不同的相关性、不同的误差分布、不同的活跃预测变量个数等诸多情况;通过模拟研究,对这些方法的适用范围以及模拟效果有了直观的印象。分析模拟结果可以发现,这几种方法的模拟效果和它们的理论性质基本是吻合的,它们都能较好地进行特征筛选。在线性模型下,只要信噪比不是很小,本文研究的这几种方法都有很好的模拟效果,能准确地对预测变量进行排序和筛选;在本文设置的这几种模拟情形下,SIS方法只在误差分布非厚尾的线性模型下有良好的筛选效果,SIRS方法在多指标模型和变换模型下的筛选效果比较理想,NRS方法和RRCS方法都在厚尾分布、多指标模型、变换模型以及非参数模型下的有着不错的筛选效果,DC-SIS方法在厚尾分布和非参数模型下的模拟结果有明显的改善;而在预测变量与响应变量对称相关的设置下,本文的模拟试验结果表明,没有哪一种方法明显地优于其它方法。随着大数据时代的到来,超高维数据越来越多地出现在科学研究以及人们的生活中。因此研究特征筛选的方法不但具有重要的理论意义,而且也有着重要的实用价值。本文通过理论介绍以及模拟研究认为,在实际中使用这些特征筛选方法时,首先要尽量根据实际的问题以及经验确定合适的模型,然后选择一个较好的方法,这样才能确保有良好的使用效果。
【关键词】:变量选择 特征筛选 确定筛选性质 排序相合性 选择相合性 模拟研究
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F224
【目录】:
- 中文摘要8-10
- 英文摘要10-12
- 第一章 绪论12-17
- §1.1 背景介绍12-13
- §1.2 研究现状13-16
- §1.3 本文结构16-17
- 第二章 常用特征筛选方法概述17-39
- §2.1 SIS方法17-21
- §2.1.1 SIS方法的基本原理17-19
- §2.1.2 迭代SIS方法:ISIS19-20
- §2.1.3 SIS方法的基本性质20-21
- §2.2 SIRS方法21-24
- §2.2.1 SIRS方法的基本原理21-22
- §2.2.2 估计量22
- §2.2.3 筛选准则22-23
- §2.2.4 排序相合性23-24
- §2.3 NRS方法24-29
- §2.3.1 NRS方法的基本原理25-26
- §2.3.2 估计量26-27
- §2.3.3 筛选准则27-28
- §2.3.4 排序相合性28-29
- §2.4 DC-SIS方法29-33
- §2.4.1 距离相关系数及其估计29-31
- §2.4.2 筛选准则31-32
- §2.4.3 确定筛选性32-33
- §2.5 RRCS方法33-37
- §2.5.1 Kendall τ相关系数及其性质33-34
- §2.5.2 特征筛选34-35
- §2.5.3 确定筛选性35-37
- §2.6 本章总结37-39
- 第三章 模拟研究39-52
- §3.1 线性模型39-41
- §3.2 厚尾分布41-42
- §3.3 多指标模型42-45
- §3.4 变换模型45-48
- §3.5 非参数模型48-49
- §3.6 对称相关的情形49-50
- §3.7 本章总结50-52
- 第四章 结语52-53
- 参考文献53-57
- 致谢57-58
- 学位论文评阅及答辩情况表58
【相似文献】
中国期刊全文数据库 前5条
1 李旭;;随机右截尾情形下一种生存模型估计的强相合性证明[J];统计与决策;2011年23期
2 ;本期导读[J];统计与决策;2008年10期
3 李冬梅;刘维奇;;具有无限方差的一阶自回归非平稳过程[J];山西大学学报(自然科学版);2008年01期
4 方婧;章溢;温利民;;聚合风险模型下的信度估计[J];江西师范大学学报(自然科学版);2012年06期
5 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 李永红;;可加模型回归函数估计的强相合性[A];数学·物理·力学·高新技术研究进展——1998(7)卷——中国数学力学物理学高新技术交叉研究会第7届学术研讨会论文集[C];1998年
2 孙燕;柴根象;;纵向数据混合效应模型参数估计的强相合性[A];2003中国现场统计研究会第十一届学术年会论文集(下)[C];2003年
3 金明仲;吴贤毅;金良琼;;Gauss-Markov条件下最小二乘估计的强相合性[A];贵州省自然科学优秀学术论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 刘继学;关于线性EV模型的研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘萃;若干特征筛选方法及其模拟研究[D];山东大学;2016年
2 刘天泽;WOD样本递归密度核估计的相合性[D];北华大学;2016年
3 潘茂林;经验费率的相合性[D];华东师范大学;2007年
4 宋会杰;半参数模型中估计的相合性及方法的研究[D];西北大学;2009年
5 王星惠;弱误差半参数和非参数回归模型估计的相合性[D];安徽大学;2011年
6 熊苹;NA相依样本在统计模型中的研究[D];武汉大学;2005年
7 方红;一般形式的密度估计[D];安徽大学;2005年
8 雷静;平衡损失函数下信度保费的相合性研究[D];吉林大学;2011年
9 周跃进;结构型EV模型参数估计的相合性[D];安徽大学;2006年
10 陈向红;重尾分布尾部指数的Crovella估计的性质研究[D];南京师范大学;2006年
,本文编号:1005702
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/1005702.html