无监督符号数据的原型和属性协同约简研究
发布时间:2021-02-02 00:55
在机器学习中,原型选择(即实例选择、样本选择)和属性约简(即特征选择、属性选择)成了数据挖掘中必不可少的步骤,在机器学习中变得越来越重要。属性选择以及样本选择在机器学习中,是两个重要的数据预处理步骤,其中前者旨在从给定的数据集中去除一些不相关或者冗余的特征,而后者则是通过一定的指标去除有缺陷或者重复的记录。本文围绕无监督环境下样本和特征的协同选择展开了研究,其主要工作和创新点如下:(1)提出了一种基于数据集中属性或实例所携带信息量的衡量的重要度指标。针对无监督学习任务,可以通过聚类生成伪标签,将其转换为监督学习任务。利用模糊粗糙集的相关知识,以距离的方式度量特征之间的相似性,将属性之间的相关性衡量以及样本之间的关联性量化相结合,同时,与已有的基于信息熵的方法不同,该指标通过考虑关系的势而不是相似类来达到减低计算复杂度的目的。同时就所提出的指标的相关性质进行了讨论和验证,指标的单调性也保证了进行选择学习任务结果的有效性。基于提出的指标,给出了一种用于特征选择的贪心前向选择算法,并利用实验验证了所提出指标的有效性和实用性。(2)提出了一种新的算法,将谱聚类与字典学习相结合,能够实现无监督特...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【图文】:
实验性能结果vs不同参数α和β取值.27
第3章基于字典对的聚类结构保留的无监督特征选择算法表3-2不同特征选择算法在数据集上分类精度性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.9883(4)0.99670.9950(3)0.93780.9982(1)warpAR10P0.7283(5)0.7342(3)0.7567(2)0.7292(4)0.8125(1)isolet0.8355(2)0.6053(5)0.7778(3)0.7603(4)0.8442(1)LUNG0.9146(4)0.9185(3)0.8661(5)0.9195(2)0.9414(1)Carcinom0.7971(4)0.7121(5)0.8984(2)0.8706(3)0.9491(1)USPS0.9604(2)0.9590(4)0.9595(3)0.9478(5)0.9674(1)表3-3不同算法在数据集上NMI指标性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.5708(2)0.5821(1)0.3116(4)0.2122(5)0.3889(3)warpAR10P0.3482(3)0.3597(2)0.3367(4)0.2200(5)0.3986(1)isolet0.638(2)0.4081(5)0.6136(3)0.5497(4)0.7757(1)LUNG0.6048(5)0.6223(4)0.6379(3)0.7399(2)0.8030(1)Carcinom0.6048(4)0.5603(5)0.7439(2)0.7385(3)0.7904(1)USPS0.6659(2)0.6430(5)0.6568(4)0.6580(3)0.6889(1)表3-4不同选择算法在数据集上的聚类精度性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.6769(3)0.6829(2)0.3414(4)0.2148(5)0.6950(1)warpAR10P0.3705(4)0.4078(2)0.3712(3)0.2285(5)0.7975(1)isolet0.7654(2)0.5272(5)0.7192(3)0.7068(4)0.8442(1)LUNG0.5310(4)0.5296(5)0.5666(3)0.6220(2)0.9414(1)Carcinom0.6112(4)0.5644(5)0.7830(3)0.7949(2)0.9491(1)USPS0.6338(2)0.6093(5)0.6161(4)0.6220(3)0.9674(1)图3-2实验结果vs不同参数α和β取值.29
本文编号:3013745
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:56 页
【学位级别】:硕士
【图文】:
实验性能结果vs不同参数α和β取值.27
第3章基于字典对的聚类结构保留的无监督特征选择算法表3-2不同特征选择算法在数据集上分类精度性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.9883(4)0.99670.9950(3)0.93780.9982(1)warpAR10P0.7283(5)0.7342(3)0.7567(2)0.7292(4)0.8125(1)isolet0.8355(2)0.6053(5)0.7778(3)0.7603(4)0.8442(1)LUNG0.9146(4)0.9185(3)0.8661(5)0.9195(2)0.9414(1)Carcinom0.7971(4)0.7121(5)0.8984(2)0.8706(3)0.9491(1)USPS0.9604(2)0.9590(4)0.9595(3)0.9478(5)0.9674(1)表3-3不同算法在数据集上NMI指标性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.5708(2)0.5821(1)0.3116(4)0.2122(5)0.3889(3)warpAR10P0.3482(3)0.3597(2)0.3367(4)0.2200(5)0.3986(1)isolet0.638(2)0.4081(5)0.6136(3)0.5497(4)0.7757(1)LUNG0.6048(5)0.6223(4)0.6379(3)0.7399(2)0.8030(1)Carcinom0.6048(4)0.5603(5)0.7439(2)0.7385(3)0.7904(1)USPS0.6659(2)0.6430(5)0.6568(4)0.6580(3)0.6889(1)表3-4不同选择算法在数据集上的聚类精度性能表现DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.6769(3)0.6829(2)0.3414(4)0.2148(5)0.6950(1)warpAR10P0.3705(4)0.4078(2)0.3712(3)0.2285(5)0.7975(1)isolet0.7654(2)0.5272(5)0.7192(3)0.7068(4)0.8442(1)LUNG0.5310(4)0.5296(5)0.5666(3)0.6220(2)0.9414(1)Carcinom0.6112(4)0.5644(5)0.7830(3)0.7949(2)0.9491(1)USPS0.6338(2)0.6093(5)0.6161(4)0.6220(3)0.9674(1)图3-2实验结果vs不同参数α和β取值.29
本文编号:3013745
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3013745.html