超高维数据的特征筛选研究
发布时间:2017-09-29 15:28
本文关键词:超高维数据的特征筛选研究
更多相关文章: 超高维数据 判别分析 稳健秩筛选 多元响应变量 投影筛选
【摘要】:随着数据收集技术的快速发展,很多领域的研究者可以用较低的成本获得超高维数据,例如基因组学,功能磁共振成像,X线断层摄影术,金融等领域.然而,许多降维方法和变量选择方法受困于计算成本、统计精度和算法稳定性,并不能解决超高维问题.自从基于线性模型的准确独立筛选(sure independence screening, SIS)过程被提出来以后,统计学家提出了许多各具特色的特征筛选方法,它们适用于不同的统计模型以及不同类型的数据.超高维判别分析以及超高维线性模型是超高维特征筛选研究中的两个常见且重要的问题,仍然具有很大的研究空间.首先考虑超高维判别分析中的准确特征筛选问题,本文基于预测变量样本秩的条件数学期望和无条件数学期望的差异,提出了一种新的筛选指标,称之为稳健秩筛选.基于一些假设条件,本文证明出新的特征筛选过程具有准确筛选性质.新的筛选方法具有以下五个特点.第一,该方法对于预测变量是重尾分布、存在潜在异常值的情形以及样本量极端不平衡的情形具有稳健性.第二,它是一个模型自由的筛选过程,不需要任何具体参数模型的设定.第三,本文提出的筛选过程可以直接应用到响应变量具有多个类别的情形.第四,稳健秩筛选指标中使用了示性函数,这大大简化了理论推导,因为示性函数构成的最终统计量是有界的.第五,本文提出的筛选标准具有简单的结构,这决定了筛选过程的计算成本是很低的.最后,蒙特卡罗模拟和实例分析被用来验证有限样本下稳健秩法的效果.接着,本文考虑带有多元响应变量的超高维线性模型的特征筛选.本文考虑多元响应变量张成的线性空间,而不是将每一个响应变量进行单独考虑.基于投影理论,本文将每个自变量投影到多元响应变量张成的线性空间上,提出了一个新的投影筛选(PS)过程,并在一定约束条件的基础上证明了准确筛选性质.SIS指出,超高维线性模型的边缘特征筛选会遇到三大困难:与重要变量高度相关的不重要变量有很大的概率被选进模型;重要变量可能与响应变量边缘不相关,但是与响应变量联合相关;协变量之间可能存在的多重共线性.为了解决以上困难并加强PS筛选的效果,本文进一步提出了迭代投影筛选(IPS)过程.本文利用蒙特卡罗模拟来评价PS和IPS在有限样本下的效果,并通过一个真实数据的实例分析来说明PS和IPS在应用中的有效性.
【关键词】:超高维数据 判别分析 稳健秩筛选 多元响应变量 投影筛选
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O212.1
【目录】:
- 中文摘要5-7
- Abstract7-9
- 第一章 绪论9-13
- 1.1 超高维判别分析问题的研究历史与现状9-10
- 1.2 超高维线性模型的研究历史与现状10-12
- 1.3 研究内容和创新点12-13
- 第二章 超高维判别分析数据的特征筛选13-32
- 2.1 稳健秩方法(RRS)13-16
- 2.2 准确筛选性质16-18
- 2.3 数值模拟18-22
- 2.4 实例分析22-25
- 2.4.1 肺癌数据22-23
- 2.4.2 恶性纤维组织细胞瘤数据23-25
- 2.5 理论证明25-31
- 2.6 本章小结31-32
- 第三章 多元响应变量线性模型的特征筛选32-54
- 3.1 投影筛选方法(PS)33-34
- 3.2 准确筛选性质34-36
- 3.3 迭代算法(IPS)36-37
- 3.4 数值模拟37-44
- 3.5 实例分析44-45
- 3.6 理论证明45-52
- 3.7 本章小结52-54
- 第四章 结论与展望54-56
- 4.1 结论54
- 4.2 展望54-56
- 参考文献56-59
- 附录一59-65
- A.1 超高维判别分析的特征筛选方法59-60
- A.2 判别分析方法60-62
- A.3 线性模型特征筛选方法62-65
- 附录二 个人简介65-66
- 附录三 致谢66
本文编号:942790
本文链接:https://www.wllwen.com/kejilunwen/yysx/942790.html