当前位置:主页 > 科技论文 > 数学论文 >

带有替代数据的超高维特征筛选研究

发布时间:2020-05-20 14:36
【摘要】:随着大数据的日益发展,数据分析被广泛应用到各个科学领域,如生物医学成像,基因描述和蛋白组学研究,肿瘤分类等。协变量的维数p随着样本量呈指数级增长,响应变量和协变量之间满足稀疏性,这意味着只有少部分的协变量与响应变量相关,使得传统的数据分析方法不再准确,得出的结果可能存在偏差甚至是错误的。为了对超高维数据进行更精确的分析,从数据集中获取有效信息,我们需要对超高维数据进行降维处理。由于超高维降维可以有效解决该问题,故其应用前景十分广泛。近年来,许多学者提出了多种高效的超高维特征筛选方法,一般分为两步,先是将超高维数据的维数降低到样本规模以下,特征筛选将所有的重要变量保留下来,在这个基础上再对降维后数据进行变量选择。在研究响应变量与预测变量的关系时,由于变量获取难度大或者所需花费成本太高,协变量中经常出现数据缺失的情况。一般来说,简单的舍弃不完全数据的观测值,基于完整数据分析的推论结果可能是有偏的甚至是无效的。所以探讨研究处理缺失数据问题的方法显得尤为重要。目前,对于该问题许多统计学研究者不断深入探讨,理论研究成果日渐丰富。本文旨在研究当协变量随机缺失时带有替代数据的超高维数据特征筛选问题。首先从最简单的线性模型出发,采用非参数插补的方法来构建精确观测数据与对应的替代数据之间的联系。我们验证了所提出带有替代数据的超高维数据下基于非参数插补的特征筛选过程满足2008年Fan等所给出的确定性筛选性质。然后本文扩展研究无模型假设时,在扩展逆概率加权方法的基础上提出了双稳健特征筛选指标。当替代变量维数不高的时候,逆概率权函数和扩展的条件期望函数都可以用非参数拟合的方式来估计,保证了筛选指标的相合性。当替代变量为高维的时候,可以对逆概率权函数和条件期望函数给定参数模型假设,只要两个参数模型假设至少有一个是正确的,那么就能保证筛选指标的估计相合性。在理论性质的证明之外,又利用蒙特卡罗模拟研究了其有限样本性质,并通过行实例分析,验证评估其实用价值。
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212

【相似文献】

相关期刊论文 前10条

1 李书磊;刘安中;李友荣;肖涵;;基于替代数据法的齿轮信号的混沌识别[J];武汉科技大学学报(自然科学版);2007年03期

2 卢宇,贺国光;基于改进型替代数据法的实测交通流的混沌判别[J];系统工程;2005年06期

3 王桓;水玲玲;孟庆元;李笑然;Nicolass Frans DE ROOIJ;周国富;;一种基于改进替代数据法的图形化混沌判据[J];华南师范大学学报(自然科学版);2018年04期

4 石鑫;周勇;甘新年;姬生科;;机载多源飞行数据资料的非线性检验[J];计算机与数字工程;2013年05期

5 相洁;曹锐;李聪改;陈俊杰;;基于模糊熵的时间序列非线性检测方法[J];太原理工大学学报;2014年03期

6 卢宇;;基于改进型替代数据法的仿真交通流混沌判定[J];武汉理工大学学报(交通科学与工程版);2011年03期

7 雷强;;国内外煤炭价格的非线性特征研究[J];资源科学;2013年10期

8 卢宇;贺国光;;一种新的交通流混沌实时判定方法[J];系统工程理论方法应用;2006年05期

9 赵家春;;用星号替代数据我有简便方法[J];电脑爱好者;2012年03期

10 尹雯雯;;波士顿住房数据变系数误差模型的核实方法研究[J];重庆工商大学学报(自然科学版);2018年03期

相关重要报纸文章 前1条

1 迟诚;替代国和替代数据成争议焦点[N];中国绿色时报;2011年

相关博士学位论文 前4条

1 侯威;极端事件检测、评价方法及中国近40年极端温度和降水事件时空变化研究[D];兰州大学;2009年

2 程静;基本情感生理信号的非线性特征提取研究[D];西南大学;2015年

3 许小可;基于非线性分析的海杂波处理与目标检测[D];大连海事大学;2008年

4 谢中凯;信息熵理论在混凝土结构损伤动力识别中的应用研究[D];浙江大学;2013年

相关硕士学位论文 前8条

1 张洁;带有替代数据的超高维特征筛选研究[D];南京信息工程大学;2018年

2 俞菲;基于动力特征的替代数据算法的研究[D];哈尔滨工业大学;2013年

3 眭烨;替代数据及其应用[D];华东师范大学;2011年

4 刘昊;基于双谱的时间序列正态性及线性的检验[D];南京大学;2013年

5 张明明;中国证券市场的多重分形及有效性研究[D];山西大学;2012年

6 王祖力;基于图论的小世界统计策略研究及其在医学影像中的应用[D];中国计量学院;2016年

7 孙彬彬;混沌时序的特征量分析及相空间重构研究[D];东北大学;2008年

8 王晓婧;不完全数据半参数变系数部分线性模型的统计分析[D];中国科学院研究生院(数学与系统科学研究院);2008年



本文编号:2672771

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2672771.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户111ae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com