当前位置:主页 > 科技论文 > 软件论文 >

基于近邻相似图的谱聚类算法研究与应用

发布时间:2022-01-16 06:27
  谱聚类算法是基于谱图划分理论的一种聚类算法,由于其对非凸数据集具有优越的性能而广受欢迎。因为谱聚类算法中的相似图构造的好坏往往会直接关系到数据集内数据点之间的相似度是否符合真实情况,从而进一步影响到谱聚类算法的聚类性能,所以本文针对这一问题进行了研究。本文内容紧紧围绕谱聚类算法中的相似图构造,提出了两种基于不同相似图的谱聚类算法,其中一种为半监督算法。最后本文还将这两种算法进行了融合,得到一种新的算法,并将其应用到了实际的文本聚类当中。以下是本文的主要研究工作及成果:首先,提出了基于密度自适应邻域相似图的半监督谱聚类算法(DAN-SSC)。该算法先是将半监督信息的一种——成对约束先验信息扩散到整个聚类空间,然后再合理地利用这些信息来指导DAN算法当中的相似度矩阵的构造过程,接着才继续完成规范化谱聚类的流程。最后还需检验之前的聚类结果是否满足先验信息的约束条件,若不满足则需对其进行调整,调整之后才能得到最终的聚类结果。通过对比实验及分析,证明了DAN-SSC算法充分利用了有标签数据且避免了少量有标签数据可能会对聚类过程进行错误指导的情况,该算法在实验数据集上获得了比传统无监督谱聚类算法和... 

【文章来源】:江南大学江苏省 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于近邻相似图的谱聚类算法研究与应用


典型的数据挖掘系统

状态图,凝聚法,数据点,数学模型


图 1-2 凝聚法和分裂法基于模型的聚类方法(Model-based Clustering Methods),顾名思义,先要为每个簇假设一个数学模型,接着再去发现符合模型的数据点,最后也是最关键的一步是将给定的数据与某个模型达成最佳的拟合状态。模型聚类的代表性算法是高斯混合聚类[25],该算法选取高斯混合分布作为模型,先初始化模型参数,然后利用 EM 算法对模型参数进行迭代更新直到满足停止条件,在迭代过程的同时就已经完成聚类。基于图论的谱聚类方法是本文的研究重点,谱聚类算法的本质是利用谱松弛方法将聚类问题转化为图的划分问题。该算法虽然于近二十年才被提出,但是由于其对非凸数据集有着优越的性能而广受欢迎。模糊聚类方法和以上六种聚类方法都不同,后者全部属于绝对化聚类,也称之为硬聚类,即每个数据点仅仅属于一个簇,不存在某个数据点同时属于多个簇的情况,簇和簇之间是不存在交集关系的。而模糊聚类则打破了这个限定,样本不再是刚性地属于某一个簇了,而是给出其属于各个簇的概率,这种聚类方法被称为软聚类。模糊聚类的代表性算法是 FCM[26],它是由 Bezdke JC 于 1973 年提出的。FCM 是目前最流行且应用最广泛的模糊聚类算法,相比于 k-means 算法,它能够部分避免陷入局部最优,而局部最

顶点,集合论,核半径,边权


222exp2i jijx xsσ = 斯核半径,又称尺度参数,往往需要根据经验手动设理论图的一个重要分支,它通常使用集合论的方法来研究图。般用顶点的集合 V 和边的集合 E 来描述,即无向的集合 V 不光代表着所有的顶点,一般也对应表示着}n,顶点和数据点之间是一一对应的关系。另外,对于接,也可以没有边连接,其中边是无方向的。意两点iv 和jv ,一般把它们之间的边权值定义为ijw 。i。通常情况下 0ijw > ,如果 0ijw = 则说明点iv 与jv 之间 0。一个无向加权图的例子如下图 2-1 所示:

【参考文献】:
期刊论文
[1]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿.  北京大学学报(自然科学版). 2016(01)
[2]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟.  计算机学报. 2015(08)
[3]基于数据场的改进DBSCAN聚类算法[J]. 杨静,高嘉伟,梁吉业,刘杨磊.  计算机科学与探索. 2012(10)
[4]一种基于流形距离核的谱聚类算法[J]. 陶新民,宋少宇,曹盼东,付丹丹.  信息与控制. 2012(03)
[5]基于改进CURE聚类算法的无监督异常检测方法[J]. 周亚建,徐晨,李继国.  通信学报. 2010(07)
[6]一种有效的用于数据挖掘的动态概念聚类算法[J]. 郭建生,赵奕,施鹏飞.  软件学报. 2001(04)
[7]基于数据仓库的决策支持系统框架[J]. 谢榕.  系统工程理论与实践. 2000(04)



本文编号:3592116

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3592116.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0352***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com