集成聚类算法及其在个性化推荐中的应用研究
发布时间:2021-01-28 05:43
聚类是数据学习中一项关键技术,以无监督的形式进行分类。通俗地讲,聚类就是将数据划分出不一样的类簇,同一类簇中的相似度尽可能的大,而不在同类簇中的相似度尽可能的小。近年来,聚类出现在很多新的技术研究领域,如:个性化推荐。个性化推荐是依据用户数据和喜好习惯向用户推送符合偏好的信息,挖掘用户的潜在需求,这在很大程度上减少了查找信息的时间,提高了网络平台的效率。协同过滤算法面对庞杂数据进行推荐时,算法推荐效率会降低。利用聚类算法数据分类的特点来解决推荐中的弊端,不仅能降低计算量,还提升了推荐效率。聚类算法在个性化推荐技术中应用时,如何实现快速、高效率的推荐是研究的重难点。本文针对经典聚类算法自身的不足和推荐算法存在的问题缺点等进行分析研究,工作具体如下:(1)针对K-means算法随机生成初始中心对结果干扰大以及容易陷入局部最优的缺点,先提出了依靠密度峰值优化K-means初始中心的F-KMs聚类算法,再提出名为N-FK的集成算法:不仅可以快速得到最佳初始中心并且利用谱聚类的算法特点解决了F-KMs无法处理任意密度形状的数据的不足。(2)针对在处理大规模数据时,近邻传播(AP)算法复杂度高且需...
【文章来源】:西北师范大学甘肃省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
决策图
第3章基于密度峰值优化的N-FK聚类算法研究13而为了方便观察且算法便于计算、存储将局部密度和距离以乘积的形式展现,设定了一个变量:iiiSiI(3-4)将局部密度和距离以乘积的形式展现,很明显当与的值越大,乘积越大,由此可以得到最佳的聚类中心的备选点。如图3-3所示。图3-3γ值的降序排列图但是,FDP也存在一些自身缺点:(1)乘积值大,并不能说明与都大,所以依据此判断对于一些密度不均的数据,就无法得到最佳聚类中心和个数;(2)对非类中心点的划分,忽略点之间的内在联系,可能存在密度高的不一定是临近点,就造成部分点划分错误;(3)参数对结果影响大。3.1.2NJW谱聚类谱聚类[46]算法原理是将聚类转变成图的划分问题,本质上就是将数据点都当成顶点,把顶点通过带权值的边链接,权值即是顶点间的相似度,那么聚类就看作分切这些带权的边。通过这一步转化,就可以解决传统聚类方式无法聚类任意形状数据的弊端。最具代表性的谱聚类就是多路谱聚类的一种—NJW算法[47],其本质就是构造数据点的相似度矩阵(图),获取矩阵的特征向量,转化成将特征向量划分成K个类(即将图切割成K个子图),图内的相似度尽可能大,子图间的相似度最弱[46]。构造相似度矩阵利用的高斯核函数如下式(3-5):2exp2ijijdA(3-5)公式中,ijd表示点ix与jx之间的距离,是尺度参数。参数的取值对算法
西北师范大学硕士学位论文20具体N-FK算法步骤如下:算法3.2N-FK聚类算法输入:含n个样本的数据集X{x1,x2,xn},所要划分的类个数K。输出:数据集X中所有点的划分结果。Step1:构造集合X的相似度矩阵A,计算得到拉氏矩阵L;Step2:求各个点的局部密度和距离的值,根据式(3-6)、(3-7)排除异常点后求=*的值,并对乘积的值降序排列;Step3:取值最大的前K个点作为初始中心;Step4:计算拉氏矩阵L的特征值和特征向量,并选取最大的K个特征值的特征向量构成矩阵Xx1,x2xKRnK;Step5:将矩阵X的行向量标准化为单位向量,得到矩阵Y;Step6:选用F-KMs算法对n个特征点(Y的每一行就是一个特征点)聚类,获得K个类。Step7:输出结果及类中心。在上述3.12节NJW算法介绍中有提到关于参数选择的重要性,目前流行的交叉验证方法需要经过多次验证取性能最好的值,这就需要多次的实验跟经验选择,耗时耗力,取值结果还可能不合适。本文选择了文献[56]提出的一种参照核函数自身性质和几何距离的两方面来选择,且利用高斯核函数的麦克劳林展开解决了参数的优化选择,选择希尔伯特空间距离的平方作为衡量指标,将参数的确定转化为最优求解的问题[56]。3.5实验结果与分析在3.3节文章已经对关于密度峰值优化下选取初始中心点的性能效果做了实验分析,结果表明要比随机选取初始中点的性能有提升,此处就不在多加测评。此小节实验将K-means算法、FDP算法、F-KMs算法以及N-FK分别对不同形状性质的二维数据聚类结果做了对比,以结果导入MATLAB中可视化数据结果,以分类结果图展示如下:(a)k-means算法(b)FDP算法(c)F-KMs算法(d)N-FK算法图3-6含两个球形类簇的140-2数据集
本文编号:3004456
【文章来源】:西北师范大学甘肃省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
决策图
第3章基于密度峰值优化的N-FK聚类算法研究13而为了方便观察且算法便于计算、存储将局部密度和距离以乘积的形式展现,设定了一个变量:iiiSiI(3-4)将局部密度和距离以乘积的形式展现,很明显当与的值越大,乘积越大,由此可以得到最佳的聚类中心的备选点。如图3-3所示。图3-3γ值的降序排列图但是,FDP也存在一些自身缺点:(1)乘积值大,并不能说明与都大,所以依据此判断对于一些密度不均的数据,就无法得到最佳聚类中心和个数;(2)对非类中心点的划分,忽略点之间的内在联系,可能存在密度高的不一定是临近点,就造成部分点划分错误;(3)参数对结果影响大。3.1.2NJW谱聚类谱聚类[46]算法原理是将聚类转变成图的划分问题,本质上就是将数据点都当成顶点,把顶点通过带权值的边链接,权值即是顶点间的相似度,那么聚类就看作分切这些带权的边。通过这一步转化,就可以解决传统聚类方式无法聚类任意形状数据的弊端。最具代表性的谱聚类就是多路谱聚类的一种—NJW算法[47],其本质就是构造数据点的相似度矩阵(图),获取矩阵的特征向量,转化成将特征向量划分成K个类(即将图切割成K个子图),图内的相似度尽可能大,子图间的相似度最弱[46]。构造相似度矩阵利用的高斯核函数如下式(3-5):2exp2ijijdA(3-5)公式中,ijd表示点ix与jx之间的距离,是尺度参数。参数的取值对算法
西北师范大学硕士学位论文20具体N-FK算法步骤如下:算法3.2N-FK聚类算法输入:含n个样本的数据集X{x1,x2,xn},所要划分的类个数K。输出:数据集X中所有点的划分结果。Step1:构造集合X的相似度矩阵A,计算得到拉氏矩阵L;Step2:求各个点的局部密度和距离的值,根据式(3-6)、(3-7)排除异常点后求=*的值,并对乘积的值降序排列;Step3:取值最大的前K个点作为初始中心;Step4:计算拉氏矩阵L的特征值和特征向量,并选取最大的K个特征值的特征向量构成矩阵Xx1,x2xKRnK;Step5:将矩阵X的行向量标准化为单位向量,得到矩阵Y;Step6:选用F-KMs算法对n个特征点(Y的每一行就是一个特征点)聚类,获得K个类。Step7:输出结果及类中心。在上述3.12节NJW算法介绍中有提到关于参数选择的重要性,目前流行的交叉验证方法需要经过多次验证取性能最好的值,这就需要多次的实验跟经验选择,耗时耗力,取值结果还可能不合适。本文选择了文献[56]提出的一种参照核函数自身性质和几何距离的两方面来选择,且利用高斯核函数的麦克劳林展开解决了参数的优化选择,选择希尔伯特空间距离的平方作为衡量指标,将参数的确定转化为最优求解的问题[56]。3.5实验结果与分析在3.3节文章已经对关于密度峰值优化下选取初始中心点的性能效果做了实验分析,结果表明要比随机选取初始中点的性能有提升,此处就不在多加测评。此小节实验将K-means算法、FDP算法、F-KMs算法以及N-FK分别对不同形状性质的二维数据聚类结果做了对比,以结果导入MATLAB中可视化数据结果,以分类结果图展示如下:(a)k-means算法(b)FDP算法(c)F-KMs算法(d)N-FK算法图3-6含两个球形类簇的140-2数据集
本文编号:3004456
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3004456.html