基于纵向数据的维数折叠降维方法研究及其实例应用
发布时间:2021-09-23 00:42
近年,随着大数据的应用逐渐融入人们的生活,对于能保留数据内部结构的降维方法逐渐引起重视,特别是在纵向数据上有着广泛的需求。本文主要讨论纵向数据的降维,以及其在实际医学疾病领域的应用。针对纵向数据,本文提出维数折叠主成分分析方法进行降维。该方法在实现指标变量和时间两维度降维的同时,能保留原始数据固有的结构,不破坏数据的相关性。具体而言,将原始纵向数据视为矩阵值数据,在横纵两个方向上通过极大似然估计方法估计出中心维数折叠子空间,从而在两维度上实现降维同时也保留了数据的原始结构。进一步地,通过仿真实验,考虑两种数据相关情况下的纵向数据降维:(1)组内观测值相互独立的情况;(2)组内观测值相关的情况。将所提方法与传统的主成分分析方法进行比较,模拟结果表明所提方法无论是在组内观测值相互独立还是相关的情况下,都拥有较小的降维估计误差,从而在数值上证实了所提方法的有效性。进一步,本文将所提的维数折叠主成分分析方法用于原发性胆汁肝硬化疾病数据,对病人的生存期进行预测分析。基于降维后的降维方向对数据进行低维投影,并建立非参数模型来预测生存期,与传统的线性混合效应模型的预测效果进行比较,结果表明基于所提方...
【文章来源】:上海师范大学上海市
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
中国近几年大数据产业规模及
上海师范大学硕士学位论文第4章原发性胆汁肝硬化疾病数据的应用23图4.1(a):所观察到的血清胆红素(bili)的改变趋势,标记出的黑线为选定的两个病人(id2和id20)的血清胆红素的改变趋势;(b):观察到血小板计数(platelet)的改变趋势,标记出的黑线为选定的两个病人(id2和id40)的血小板计数的改变趋势因此,接下来,我们从维数折叠的角度对PBC数据进行预处理,将每一个病人的数据信息以纵向的数据形式进行分析。我们关注在测定6个月、1年、2年和3年四个时间点的血清胆红素、白蛋白水平和凝血酶原时间这三个指标,为了便于程序编写计算,我们设定横向为指标变量信息,纵向为时间变量信息,因此,对于每个个体而言,数据表现形式为的矩阵形式,响应变量是登记到移植或死亡两者较早出现的年份。在处理过程中,我们将登记后第90天至第270天的随访视为6个月时间点的分组,入组后270天至550天、550天至910天、910天至1275天视为访问频率分别为1年、2年和3年,同时,存在一部分病例无移植或存活时间接近但小于3年的情况需要进行剔除。综上,有187个病人在这四个时间点有完整的记录,这些病人构成的187个的矩阵数据为我们目标分析的纵向数据。
第5章基于PBC分组数据的统计推断上海师范大学硕士学位论文26第5章基于PBC分组数据的统计推断5.1基于分组后DF-PCA降维的非参数模型拟合我们将响应变量进行对数化处理,对降维后的主成分关于对数化后的响应变量进行非参数模型拟合,模型如下:,(5.1)其中,表示对数化后的响应变量,为进行DF-PCA降维后的主成分部分,满足独立正态假定,为光滑的未知函数。针对模型,我们做出降维后数据的散点图并在图上画出拟合曲线,同时做出残差图以观察拟合情况,如图5.1(a)和(b)所示:图5.1(a)DF-PCA方法降维后的数据关于响应变量的拟合图;(b)DF-PCA方法降维后数据的残差图()T1121=+iiiYfXiYT1121iXi()T1121ifX(b)残差图(a)降维后的变量关于对数化后的响应变量的散点图
本文编号:3404682
【文章来源】:上海师范大学上海市
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
中国近几年大数据产业规模及
上海师范大学硕士学位论文第4章原发性胆汁肝硬化疾病数据的应用23图4.1(a):所观察到的血清胆红素(bili)的改变趋势,标记出的黑线为选定的两个病人(id2和id20)的血清胆红素的改变趋势;(b):观察到血小板计数(platelet)的改变趋势,标记出的黑线为选定的两个病人(id2和id40)的血小板计数的改变趋势因此,接下来,我们从维数折叠的角度对PBC数据进行预处理,将每一个病人的数据信息以纵向的数据形式进行分析。我们关注在测定6个月、1年、2年和3年四个时间点的血清胆红素、白蛋白水平和凝血酶原时间这三个指标,为了便于程序编写计算,我们设定横向为指标变量信息,纵向为时间变量信息,因此,对于每个个体而言,数据表现形式为的矩阵形式,响应变量是登记到移植或死亡两者较早出现的年份。在处理过程中,我们将登记后第90天至第270天的随访视为6个月时间点的分组,入组后270天至550天、550天至910天、910天至1275天视为访问频率分别为1年、2年和3年,同时,存在一部分病例无移植或存活时间接近但小于3年的情况需要进行剔除。综上,有187个病人在这四个时间点有完整的记录,这些病人构成的187个的矩阵数据为我们目标分析的纵向数据。
第5章基于PBC分组数据的统计推断上海师范大学硕士学位论文26第5章基于PBC分组数据的统计推断5.1基于分组后DF-PCA降维的非参数模型拟合我们将响应变量进行对数化处理,对降维后的主成分关于对数化后的响应变量进行非参数模型拟合,模型如下:,(5.1)其中,表示对数化后的响应变量,为进行DF-PCA降维后的主成分部分,满足独立正态假定,为光滑的未知函数。针对模型,我们做出降维后数据的散点图并在图上画出拟合曲线,同时做出残差图以观察拟合情况,如图5.1(a)和(b)所示:图5.1(a)DF-PCA方法降维后的数据关于响应变量的拟合图;(b)DF-PCA方法降维后数据的残差图()T1121=+iiiYfXiYT1121iXi()T1121ifX(b)残差图(a)降维后的变量关于对数化后的响应变量的散点图
本文编号:3404682
本文链接:https://www.wllwen.com/kejilunwen/yysx/3404682.html