基于SIR的数据降维算法研究及其应用
发布时间:2022-02-09 01:26
随着互联网技术的飞速发展,很多领域都产生了大量的高维数据,如何刻画高维数据的内在结构并从中提取出对自己有用的信息显得非常重要。充分降维方法正是解决这一问题的有效手段之一,目前评价充分降维方法的好坏(降维效果)通常是用平方多重相关系数的大小来表示的。针对充分降维,本文主要以应用为主,对三种不同类型数据结构的数据集提出了改进的降维方法,主要工作如下。一,以含有离群点的数据集为研究对象,本文将K-medoids聚类算法与切片逆回归方法相结合,提出了K-medoids逆回归算法。通过对由线性模型和非线性模型产生出的模拟数据所进行的仿真实验发现,该算法相比于切片逆回归、切片平均方差估计和海森主方向等传统的充分降维方法不仅有较高的降维正确率,而且有很好的降维效果。本文将上述方法应用于实际数据,数据分析进一步说明了新方法的有效性。二,以响应变量为二分变量的数据集为研究对象,以切片逆回归为代表的传统充分降维方法大多不可用。本文对切片逆回归、切片平均方差估计和海森主方向三种方法进行了研究,给出了三种方法的核矩阵的具体形式和其相对应的检验方法。通过研究发现,改进的方法可应用于响应变量为二分变量的数据集,并...
【文章来源】:南京邮电大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
模型3.2的数据分布情况
图 3.2 模型 3.3 的数据分布情况图 3.2 截取的是样本量为 n 200时的一个数据分布情况,可以清楚地看到该模型在二维和三维空间内没有显著的线性关系,并且可以看到其中是含有很多离群点的。接下来使用 SIR、SAVE、PHD 和 K -medoids IR 对其进行降维分析。表 3.3 描述了在不同样本数 和不同切片数 下 SIR、SAVE、PHD 和 IR四种降维算法在重复试验 100 次时的降维正确率。通过上表可以发现,对于非线性模型,SIR 方法的降维正确率很低,说明该方法对非线性模型的降维效果不好。对于 SAVE 方法,离群点对它的影响最大,其每次的降维正确率都不确定,时高时低。对于 PHD 方法,可以看出随着样本量的增多,其降维正确率有显著的提升。而改进的 IR方法仍保持较高的正确率。表 3.3 非线性模型 3.3 下四种算法的降维正确率Method HN100 200 400SIR10 0.07 0.25 0.4415 0.06 0.18 0.37
图 3.4 BHP 的数据分布情况表 3.5 和表 3.6 描述了当聚类数或切片数为 15 时,SIR、SAVE、PHD 和 K -medoidIR 四种方法对波士顿房价数据集的降维结果及降维效果。取显著性水平为 0.05,从卡方检验结果可以看出,当原假设为 d 0 vs. d 1时,前三种方法的P值=0.00<0.05,拒绝原假设,所以继续向下检验。对于 SIR 方法一直检验到 d 6 vs. d 7时,其P值=0.328>0.05 ,接受原假设,所以认为最终将 13 维模型降维到 6 维,并且2R=0.990说明降维效果很好。对于 SAVE 方法其检验不通过,降维失败。对于 PHD 方法,其降维到 11 维,其降维结果也不理想。而对于本章提出的方法,其最终降到 3 维,与最开始数据集的预测维数一样,而且2R =0.8793可以看出降维效果是比较好的。表 3.5 切片数为 15 时的降维结果0 1H vs.HP_values P_valuesSIR SAVE PHD K -medoids d 0 vs. d 10.00e+00 0.00e+00 0.00e+00 d 12 vs. d 110.00e+00d 1v s. d 20.00e+00 0.00e+00 0.00e+00 d 11v s. d 107.75e-153d 2 vs. d 30.00e+00 0.00e+00 0.00e+00 d 10 vs. d 98.94e-95
【参考文献】:
期刊论文
[1]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[2]分段逆回归与神经网络组合建模方法[J]. 黄薇,王惠文,张志慧. 系统工程. 2004(04)
[3]SIR方法在小型二次电池市场分析上的应用[J]. 周文琴,冯鸣鸣,王惠文. 数理统计与管理. 2001(06)
[4]虚拟变量在线性回归模型中的应用[J]. 章晓英. 重庆工业管理学院学报. 1998(02)
博士论文
[1]充分降维理论和方法的拓展研究[D]. 於州.华东师范大学 2010
硕士论文
[1]SIR降维方法与半参数可加回归的应用研究[D]. 李岩岩.重庆工商大学 2016
[2]Isomap与LLE在降维方面的优劣分析[D]. 何博睿.首都经济贸易大学 2016
[3]充分降维理论中PHD方法的局部影响分析[D]. 王智慧.云南财经大学 2015
[4]聚类分析中K-均值与K-中心点算法的研究[D]. 吴文亮.华南理工大学 2011
本文编号:3616123
【文章来源】:南京邮电大学江苏省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
模型3.2的数据分布情况
图 3.2 模型 3.3 的数据分布情况图 3.2 截取的是样本量为 n 200时的一个数据分布情况,可以清楚地看到该模型在二维和三维空间内没有显著的线性关系,并且可以看到其中是含有很多离群点的。接下来使用 SIR、SAVE、PHD 和 K -medoids IR 对其进行降维分析。表 3.3 描述了在不同样本数 和不同切片数 下 SIR、SAVE、PHD 和 IR四种降维算法在重复试验 100 次时的降维正确率。通过上表可以发现,对于非线性模型,SIR 方法的降维正确率很低,说明该方法对非线性模型的降维效果不好。对于 SAVE 方法,离群点对它的影响最大,其每次的降维正确率都不确定,时高时低。对于 PHD 方法,可以看出随着样本量的增多,其降维正确率有显著的提升。而改进的 IR方法仍保持较高的正确率。表 3.3 非线性模型 3.3 下四种算法的降维正确率Method HN100 200 400SIR10 0.07 0.25 0.4415 0.06 0.18 0.37
图 3.4 BHP 的数据分布情况表 3.5 和表 3.6 描述了当聚类数或切片数为 15 时,SIR、SAVE、PHD 和 K -medoidIR 四种方法对波士顿房价数据集的降维结果及降维效果。取显著性水平为 0.05,从卡方检验结果可以看出,当原假设为 d 0 vs. d 1时,前三种方法的P值=0.00<0.05,拒绝原假设,所以继续向下检验。对于 SIR 方法一直检验到 d 6 vs. d 7时,其P值=0.328>0.05 ,接受原假设,所以认为最终将 13 维模型降维到 6 维,并且2R=0.990说明降维效果很好。对于 SAVE 方法其检验不通过,降维失败。对于 PHD 方法,其降维到 11 维,其降维结果也不理想。而对于本章提出的方法,其最终降到 3 维,与最开始数据集的预测维数一样,而且2R =0.8793可以看出降维效果是比较好的。表 3.5 切片数为 15 时的降维结果0 1H vs.HP_values P_valuesSIR SAVE PHD K -medoids d 0 vs. d 10.00e+00 0.00e+00 0.00e+00 d 12 vs. d 110.00e+00d 1v s. d 20.00e+00 0.00e+00 0.00e+00 d 11v s. d 107.75e-153d 2 vs. d 30.00e+00 0.00e+00 0.00e+00 d 10 vs. d 98.94e-95
【参考文献】:
期刊论文
[1]数据降维方法分析与研究[J]. 吴晓婷,闫德勤. 计算机应用研究. 2009(08)
[2]分段逆回归与神经网络组合建模方法[J]. 黄薇,王惠文,张志慧. 系统工程. 2004(04)
[3]SIR方法在小型二次电池市场分析上的应用[J]. 周文琴,冯鸣鸣,王惠文. 数理统计与管理. 2001(06)
[4]虚拟变量在线性回归模型中的应用[J]. 章晓英. 重庆工业管理学院学报. 1998(02)
博士论文
[1]充分降维理论和方法的拓展研究[D]. 於州.华东师范大学 2010
硕士论文
[1]SIR降维方法与半参数可加回归的应用研究[D]. 李岩岩.重庆工商大学 2016
[2]Isomap与LLE在降维方面的优劣分析[D]. 何博睿.首都经济贸易大学 2016
[3]充分降维理论中PHD方法的局部影响分析[D]. 王智慧.云南财经大学 2015
[4]聚类分析中K-均值与K-中心点算法的研究[D]. 吴文亮.华南理工大学 2011
本文编号:3616123
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3616123.html