基于局部主成分分析和自步学习的谱聚类算法的改进研究

发布时间:2024-03-05 03:56
  互联网技术的飞速发展产生了海量的数据,从这些数据中提取出对实际生活有用的信息成了研究的热点问题。聚类作为一种经典的无监督机器学习方法因其可以获取数据的内在信息而被广泛研究。现实数据集通常质量参差不齐常会含有噪音样本和离群点,并且数据集的实际分布通常较为复杂。此外,在收集和存储数据的过程中还可能会出现数据部分信息缺失。而大多现有的谱聚类方法并未将这些问题考虑在内,导致模型的鲁棒性不强。本文重点研究具有复杂分布且含噪数据的聚类问题,旨在提高传统谱聚类的鲁棒性,特别对缺失和含噪声数据的处理能力以此来提升聚类效果。本文具体研究内容如下:(1)提出一种基于局部主成分分析的改进谱聚类算法。具体地说,本文首先通过自动学习对数据集中的样本进行挑选以削弱低质量样本对聚类模型的影响;然后应用局部主成分分析使得谱图分解后的低维数据较好地保留原始数据的全局和局部信息;接着使用连通图分解算法在不需要指定聚类个数的情况下输出聚类结果,最后通过距离远近对剩余样本进行聚类划分。(2)提出一种基于缺失值和自步学习的一步谱聚类算法。具体地说,使用一步谱聚类模型,将传统谱聚类的多步骤进行了融合,消除了中间步骤可能带来的累积...

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

图1.1全球数据圈的每年规模(图片来源于网络)

图1.1全球数据圈的每年规模(图片来源于网络)

广西师范大学硕士学位论文1第一章绪论1.1研究背景近年来移动智能设备的逐步普及带来了移动互联网的飞速发展使得数据的产生进入了高速爆发期,海量的数据每天不断地在各行各业中产生。以社交为例,从前人们以书信和电话的形式来进行远程社交,产生的数据量相对较少,而在社交网络高度发达的今天,个....


图3.1交叉点示意图

图3.1交叉点示意图

广西师范大学硕士学位论文12本尽量分开,即不同的类之间关系变得较为松散。其次,通过对挑选得到的样本的邻域所构成的矩阵做协方差处理,使得局部样本尽量聚拢,即同类样本内部的关系变得更加紧密。如此,虽然能使交叉点彼此达到一定程度上的分离,但是当不同簇的夹角较小的时候单独使用协方差不一定....



本文编号:3919641

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3919641.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e78bb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com