基于密度和蚁群的混合聚类算法研究及应用

发布时间:2025-01-08 22:35
  在互联网快速发展、广泛普及的时代下,非结构化数据(文本、图片、图像、视频等)呈爆炸式增长,人们花费在信息筛选的时间也越来越多,如何从大量的数据中挖掘出潜在有用的信息成为了学者们研究的热点。在这种情况下,本文关注文本数据的挖掘,利用聚类算法对文本数据进行组织、归类,发现有用的信息,减少人工整理文档的工作量,具有广泛的应用场景和深远的研究意义。本文聚焦于文本聚类应用,分析传统聚类算法的一些优势和不足,通过对聚类结果的有效性评价,提出了基于密度峰值和蚁群聚类的混合聚类算法。该算法从类中心点的选择、数据点的分配以及类合并三个方面给出了相应的计算流程,并最终将算法应用到文本聚类当中。本论文主要有以下几个工作:第一,蚁群聚类算法作为元启发式算法,具有全局优化能力、随机性和探索性,然而存在收敛慢的问题,本文使用改进后的蚂蚁拾起放下物品的计算方式,更有效的利用数据和周边数据的相似度计算拾起放下的概率,在一定程度上加快了算法的收敛速度;第二,密度峰值快速搜索算法虽然高效、简洁,但是存在需要运用可视化方式人为参与中心点的选择以及当簇分布均匀时,会把某些簇分为几个子簇的问题。针对这两个问题,本文考虑新的数据特...

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

图2-1数据聚类需要理解的是聚类分析不同于有监督学习,是一种无监督学习方法

图2-1数据聚类需要理解的是聚类分析不同于有监督学习,是一种无监督学习方法

第二章相关理论基础与技术本章概括性的对聚类分析、聚类相关算法的分类进行了概括性的陈述,同时描绘了相似性度量、文本预处理以及文本表示模型相关理论技术。2.1聚类分析2.1.1聚类分析的基本概念数据分析是许多计算机应用的基础,无论是在设计阶段还是在线操作部分。数据分析技术可以分....


图2-2层次聚类算法示例图

图2-2层次聚类算法示例图

图2-2层次聚类算法示例图.3基于密度的聚类算法在数据库中,并不是所有数据都是球形簇,因此如何聚类任意的非球形簇研究重点。对于此问题,从密度角度作出思考形成了新的聚类方法——基聚类算法,该方法属于分区聚类方法,其中涉及两个区域的识别——低密高密度区域。该方法的重点在于如何....


图2-3决策图实例及示意图

图2-3决策图实例及示意图

图2-3决策图实例及示意图容易发现,图2-3(A)中的数据集包含了两个群集和三个离群点26、27、28,再看图2-3(B),1号和10号数据点同时具有较大的ρ值和值,根据算法的定义即为两个群集的类中心点,三个离群点都具有值较高,ρ很小的特点。对于图....


图2-4LDA图形模型

图2-4LDA图形模型

N是文档d所在文档集中总的文档数量,(现的次数,nk代表文档集中包含单词tk的文档数量。由对于()和nk两个值分别呈现正相关和负相关的关系多,且该词条在其他文档中出现少,其权值就越大,对区大。题模型种非常流行的生成概率主题模型,其中每个文档都表示....



本文编号:4024721

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4024721.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2347e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com