当前位置:主页 > 科技论文 > 数学论文 >

超高维纵向数据的特征筛选研究

发布时间:2020-04-30 03:38
【摘要】:实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据被广泛应用于医学、经济学、气象等大数据领域。超高维数据的特点是维数P远大于样本量n,这使得超高维数据的计算成本大大增加,统计精度和模型算法的稳定性大大降低。这导致传统的一些降维分析方法,如:主成分法、最优子集法、变量选择方法等,无法准确有效的解决超高维数据问题。而超高维问题一般具有稀疏性特征,即只有少数协变量与响应变量有相关性,这使得对其的快速降维可以实现。纵向数据反应了数据个体间独立,个体内相关的特点,当其与超高维问题结合时,对研究工作者提出了新的挑战。本文基于超高维纵向数据的结构特征,在稀疏性假设下,研究了超高维线性模型和可加模型下在纵向数据背景下的特征筛选问题。在超高维线性模型中,推广确定独立筛选SIS(Sure Independence Screening)方法,利用纵向数据的组内相关结构矩阵,构造了带有工作相关矩阵的MSIS方法,并证明了该筛选过程满足确定性筛选性质,能够以概率1筛选出真实变量集合。在纵向数据超高维可加模型下,推广非参数独立筛选NIS(Nonparametric independence screening)方法,引入工作相关矩阵,借助二次推断函数QIF(quadratic inference function),避免未知工作相关矩阵的直接估计,构造重要变量的非参数边际相关度量指标,建立QIF-NIS筛选过程。理论证明表明所提出的方法具有确定筛选性质。本文创新性的基于纵向数据组内相关结构构造了超高维问题下的边际特征筛选方法,理论证明所提出降维筛选过程满足确定性筛选性质之外,还从数值模拟上研究了其有限样本性质,结果表明从理论和数值模拟上,所提出方法都具有优良表现。
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212.1

【参考文献】

相关硕士学位论文 前2条

1 李海斌;复杂数据下部分线性模型的QIF估计[D];北京工业大学;2014年

2 柏杨;基于二次推断函数的纵向数据半参数模型的估计[D];华东师范大学;2005年



本文编号:2645348

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2645348.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18ed9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com