当前位置:主页 > 管理论文 > 统计学论文 >

基于主成分分析的Laplace变换降维及其应用

发布时间:2021-10-07 12:38
  特征选择是一个降低维数的方法,它的目的在于从原始的特征中通过删除一些不相关特征、冗余特征、噪音特征来选择一个相关特征的子集,作为原始数据结构的代表。本文通过比较最大方差、Laplacian score和SPEC这几种传统的特征选择方法,发现它们在评价数据集的特征时,都是根据某一准则独立评价特征性能。为此,本文提出一种新的方法PCA-LAP方法,它首先利用主成分分析预处理原始数据集,在主成分分析基础上利用自助法将数据划分为训练集和测试集,然后利用Lapliacian score计算训练数据集的特征得分,根据该得分来选择特征变量,再利用测试集结合层次聚类以及对应的评价指标Rand和classError决定特征选择的数量。本文首先对文中提及到的六个数据集Madelon,winequality-red,ISOLET1,ZO-O,COIL20,USPS分别利用自助法抽样,将每个原始数据集划分为训练集和测试集,然后利用最大方差、Laplacian score和SPEC法分别对文中提及到的六个数据集 Madelon,winequality-red,ISOLET1,ZOO,COIL20,USPS对应的... 

【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

基于主成分分析的Laplace变换降维及其应用


图1.1特征选择分类??

数据集,主成分


对数据进行变换,在这里我们选择主成分个数是基于文中算法中提及到的差值法??进行选取的,然后对变换后的数据集利用Laplacian?score再次对数据集进行特征提??取,这里利用层次聚类的评价准则来决定特征提取的个数。如图3.1为主成分分析得??到的碎石图。如表3.3是我们对不同的e进行主成分个数选择,然后利用Laplacian??score进行特征提取后对新测试集进行层次聚类得到对应的Rand值和classError的??值。这里d直的选取是基于A的数量级进行选取的,因此不同的A对应的所选取??的d直也是不一样的。??表3.3?PCA-LAP法在Madelon数据集上的特征选择结果和聚类结果??e?icr7?icr6?icr5?icr4?icr3?icr2??Rand?0.5313784?0.5313784?0.5313784?0.5313784?0.5313784?0.5187168??classError?0.3739903?0.3739903?0.3739903?0.3739903?0.3739903?0.4022617??f?37?37?37?37?37?5??从图3.1我们可以发现,从对数据集Madelon进行主成分分析的得到的碎石图??可以发现,刚开始的几个主成分的方差比率相对来说差别比较大,到第六个主成??分之后两相邻主成分之间的差值相对来说较小,直到在第480个主成分左右突然降??19??

数据集,主成分


处理完之后再利用Laplacian?score法进行特征选择和层次聚类等问题。在对数据??集IS0LET1进行PCA处理的时候,会面临主成分个数的选择问题,这里所采用的??是两相邻方差比率差值是否大于e来决定的。图3.3为对数据集IS0LET1进行主成??分分析得到的碎石图,表3.7为对于不同的e得到的特征选择和聚类结果。从数据??集IS0LET1主成分分析的碎石图3.3发现,刚开始的时候两相邻主成分之间的相差??比较大,大概到第七八十个主成分左右两相邻主成分之间相差较小,且在这之后的??每个主成分所占比率也是非常的小,几乎趋近于零。??24??


本文编号:3422061

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3422061.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户486ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com