具有共享近邻的聚类技术
发布时间:2021-03-19 07:11
谱聚类目前已经成为聚类的主要方法之一,但传统谱聚类算法的相似度量方法不能很好地揭示未能完全分离的数据集的真正聚类,而基于共享近邻紧密度的谱聚类算法能够有效地改善该问题,提升聚类质量。故本文主要对基于共享近邻紧密度的谱聚类算法进行了研究,具体工作内容如下所述:(1)针对因基于共享近邻紧密度的谱聚类算法的计算时间复杂度和空间复杂度较高,当处理大规模和高维数据时,其时间开销较大,代价太昂贵,算法有可能会因为系统内存不足的原因而失效等原因,提出了一种它的增量版本来改进聚类的性能。该算法的思想是先将数据集分解为若干子集,然后以增量的方式在每个子集上运行,从而保证其具有良好的聚类性能。通过对人工数据集和仿真数据集进行大量的实验验证了本文的谱聚类算法的有效性。同时,该算法的时间消耗低,聚类精度高,且能够有效的对不断增加的数据集进行聚类。(2)针对由于传统的拉普拉斯矩阵通常会受噪音干扰或者来自于底层分布的有些偏颇的样本,致使计算出的指示向量不同于真实的向量值,故在本文算法中特征向量由拉普拉斯矩阵和分区级副信息算得;此外,将高斯核模糊聚类加入到基于共享近邻紧密度的约束谱聚类算法中,可以使其具有核函数和模...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
聚类形象化描述
第二章聚类算法的相关理论5第二章聚类算法的相关理论2.1聚类基础理论2.1.1聚类概念及相关定义聚类是根据所研究的样本之间存在的程度不同的相似性将这些样本划分为不同的簇。通过不断将一些相似度比较高的样本聚为一簇,来把所有的样本聚合完毕,使其满足簇内差异尽可能地小,簇间差异尽可能大的特性,也就是人们常说的“物以类聚”。下面给出聚类的简单图像描述:图2-1聚类形象化描述聚类主要包括四步:1)特征选择和抽取2)聚类方法的设计及选择3)聚类验证4)结果解释其流程图如下所示:图2-2聚类流程
江南大学硕士学位论文62.1.2聚类算法中的距离度量距离是构建聚类算法的基础,通常被用于估算样本点之间的相异度。给定样本12{,,,}nXxxx,dist(,ijxx)表示第i个样本和第j个样本之间的距离。以下是常用的距离度量:1.欧式距离(Euclideandistance)欧式距离源自于欧氏空间中两点间的距离公式,就是计算两点间的直线距离。传统的聚类方法通常是为欧氏空间中的假设分布而设计的。图2-3两点间的欧式距离(1)二维平面上点A(,iixy)和点B(,jjxy)之间的欧式距离公式为:22(,)()()ijijdistABxxyy(2.1)(2)高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的欧式距离公式为:222112221(,)()()()()ijijinjnnikjkkdistABxxxxxxxx(2.2)2.标准欧式距离(StandardizedEuclideandistance)标准欧式距离是针对简单欧式距离的缺点而提出的一种改进方法,高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的标准欧式距离公式为:21()(,)nikjkkkxxdistABs(2.3)其中s为标准差。3.曼哈顿距离(Manhattandistance)曼哈顿距离是计算从起点到终点之间实际经过的距离,可以形象的称之为城市街区距离(CityBlockdistance)。(1)二维平面上点A(,iixy)和点B(,jjxy)之间的欧式距离公式为:(,)+ijijdistABxxyy(2.4)(2)高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的欧式距离公式为:
【参考文献】:
期刊论文
[1]域间F-范数正则化迁移谱聚类方法[J]. 魏彩娜,钱鹏江,奚臣. 计算机科学与探索. 2018(03)
[2]隐子空间聚类算法的改进及其增量式算法[J]. 董琪,王士同. 计算机科学与探索. 2017(05)
[3]基于用户谱聚类的Top-N协同过滤推荐算法[J]. 肖文强,姚世军,吴善明. 计算机工程与应用. 2018(07)
[4]适合大规模数据集的增量式模糊聚类算法[J]. 李滔,王士同. 智能系统学报. 2016(02)
[5]一种基于增量式谱聚类的动态社区自适应发现算法[J]. 蒋盛益,杨博泓,王连喜. 自动化学报. 2015(12)
[6]密度敏感的谱聚类[J]. 王玲,薄列峰,焦李成. 电子学报. 2007(08)
本文编号:3089186
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
聚类形象化描述
第二章聚类算法的相关理论5第二章聚类算法的相关理论2.1聚类基础理论2.1.1聚类概念及相关定义聚类是根据所研究的样本之间存在的程度不同的相似性将这些样本划分为不同的簇。通过不断将一些相似度比较高的样本聚为一簇,来把所有的样本聚合完毕,使其满足簇内差异尽可能地小,簇间差异尽可能大的特性,也就是人们常说的“物以类聚”。下面给出聚类的简单图像描述:图2-1聚类形象化描述聚类主要包括四步:1)特征选择和抽取2)聚类方法的设计及选择3)聚类验证4)结果解释其流程图如下所示:图2-2聚类流程
江南大学硕士学位论文62.1.2聚类算法中的距离度量距离是构建聚类算法的基础,通常被用于估算样本点之间的相异度。给定样本12{,,,}nXxxx,dist(,ijxx)表示第i个样本和第j个样本之间的距离。以下是常用的距离度量:1.欧式距离(Euclideandistance)欧式距离源自于欧氏空间中两点间的距离公式,就是计算两点间的直线距离。传统的聚类方法通常是为欧氏空间中的假设分布而设计的。图2-3两点间的欧式距离(1)二维平面上点A(,iixy)和点B(,jjxy)之间的欧式距离公式为:22(,)()()ijijdistABxxyy(2.1)(2)高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的欧式距离公式为:222112221(,)()()()()ijijinjnnikjkkdistABxxxxxxxx(2.2)2.标准欧式距离(StandardizedEuclideandistance)标准欧式距离是针对简单欧式距离的缺点而提出的一种改进方法,高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的标准欧式距离公式为:21()(,)nikjkkkxxdistABs(2.3)其中s为标准差。3.曼哈顿距离(Manhattandistance)曼哈顿距离是计算从起点到终点之间实际经过的距离,可以形象的称之为城市街区距离(CityBlockdistance)。(1)二维平面上点A(,iixy)和点B(,jjxy)之间的欧式距离公式为:(,)+ijijdistABxxyy(2.4)(2)高维空间中点A(12,,,iiinxxx)和点B(12,,,jjjnxxx)之间的欧式距离公式为:
【参考文献】:
期刊论文
[1]域间F-范数正则化迁移谱聚类方法[J]. 魏彩娜,钱鹏江,奚臣. 计算机科学与探索. 2018(03)
[2]隐子空间聚类算法的改进及其增量式算法[J]. 董琪,王士同. 计算机科学与探索. 2017(05)
[3]基于用户谱聚类的Top-N协同过滤推荐算法[J]. 肖文强,姚世军,吴善明. 计算机工程与应用. 2018(07)
[4]适合大规模数据集的增量式模糊聚类算法[J]. 李滔,王士同. 智能系统学报. 2016(02)
[5]一种基于增量式谱聚类的动态社区自适应发现算法[J]. 蒋盛益,杨博泓,王连喜. 自动化学报. 2015(12)
[6]密度敏感的谱聚类[J]. 王玲,薄列峰,焦李成. 电子学报. 2007(08)
本文编号:3089186
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3089186.html
最近更新
教材专著