簇心自确认的聚类算法及其在文本聚类中的应用
发布时间:2023-06-04 23:26
在日常生活中我们所接触的许多信息都是以文本存储的形式进行传播的,如博客、微博、网页等。由于大数据时代的到来,让Internet上的文本数据量呈几何指数递增。这些文本数据中绝大部分都是以非结构化的形式存储的,但它们却包含着很多有用的潜在信息。如何从这些文本数据中迅速并高效的获取有用的潜在信息,就需要使用数据挖掘技术。聚类是指通过某种规则来发现数据集中的潜在分组,且这些分组中的数据对象拥有较高的相似度。可以说聚类是数据挖掘的重要技术手段,也是一种从数据集中获取潜在信息的无监督方法,目前在很多领域中都有使用,包括异常检测、人工智能和计算机视觉等。而作为聚类分析的重要组成部分——文本聚类,己经能够使用多种聚类方法。K-medoids作为一种采用启发式的划分方法,由于其实现简单、容易理解且受异常值的影响较小,目前已经应用在很多实际应用中并取得较好的效果。不过传统的K-medoids算法具有一些局限性,比如初始簇心的随机选取会影响聚类结果。本文的主要研究内容为:(1)针对密度峰值聚类算法(DPC)的三个缺陷——计算复杂度大、依赖截断间隔(9((8)和需要人工决策簇心,提出了基...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 本文结构说明
第二章 相关理论与技术
2.1 引言
2.2 文本预处理
2.2.1 清洗数据
2.2.2 分词
2.2.3 停用词过滤
2.3 文本表示模型
2.3.1 词袋模型
2.3.2 主题模型
2.3.3 词嵌入模型
2.4 构建文本表示模型
2.4.1 文本特征选择方法
2.4.2 特征项权重赋值方法
2.5 相似度计算方法
2.5.1 余弦相似度
2.5.2 欧式距离
2.6 聚类算法
2.6.1 划分式聚类
2.6.2 层次聚类
2.6.3 密度聚类
2.6.4 网格聚类
2.7 聚类评价标准
2.7.1 F-measure
2.7.2 聚类纯度
2.7.3 熵值
2.8 本章小结
第三章 基于残差和密度网格的簇心自确认聚类算法
3.1 引言
3.2 REDGSC算法介绍
3.2.1 密度网格思想介绍
3.2.2 决策图介绍
3.2.3 残差分析确认簇心
3.2.4 聚类过程
3.2.5 边缘点和噪声
3.3 算法流程
3.4 仿真实验与分析
3.4.1 性能对比
3.4.2 算法执行时间分析
3.4.3 算法复杂度分析
3.4.4 实验结果分析
3.5 本章小结
第四章 基于密度权重Canopy的改进K-medoids算法
4.1 引言
4.2 K-medoids算法介绍
4.3 Canopy算法介绍
4.4 密度权重的Canopy算法
4.4.1 相关概念
4.4.2 算法流程
4.5 DWCK-medoids算法
4.6 仿真实验
4.6.1 真实数据集
4.6.2 人工数据集
4.7 本章小结
第五章 DWCK-medoids算法在文本聚类上的应用
5.1 引言
5.2 数据集介绍
5.3 DWCK-medoids算法应用
5.3.1 文本数据预处理
5.3.2 频繁词集挖掘
5.3.3 构建文本表示模型
5.3.4 相似度计算
5.3.5 聚类操作
5.3.6 主题描述
5.4 实验及结果分析
5.4.1 相关算法的参数设置
5.4.2 聚类性能比较
5.4.3 实验中对文本主题的描述
5.5 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间取得的学术成果
攻读硕士学位期间参加的研究项目
致谢
本文编号:3831231
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 本文结构说明
第二章 相关理论与技术
2.1 引言
2.2 文本预处理
2.2.1 清洗数据
2.2.2 分词
2.2.3 停用词过滤
2.3 文本表示模型
2.3.1 词袋模型
2.3.2 主题模型
2.3.3 词嵌入模型
2.4 构建文本表示模型
2.4.1 文本特征选择方法
2.4.2 特征项权重赋值方法
2.5 相似度计算方法
2.5.1 余弦相似度
2.5.2 欧式距离
2.6 聚类算法
2.6.1 划分式聚类
2.6.2 层次聚类
2.6.3 密度聚类
2.6.4 网格聚类
2.7 聚类评价标准
2.7.1 F-measure
2.7.2 聚类纯度
2.7.3 熵值
2.8 本章小结
第三章 基于残差和密度网格的簇心自确认聚类算法
3.1 引言
3.2 REDGSC算法介绍
3.2.1 密度网格思想介绍
3.2.2 决策图介绍
3.2.3 残差分析确认簇心
3.2.4 聚类过程
3.2.5 边缘点和噪声
3.3 算法流程
3.4 仿真实验与分析
3.4.1 性能对比
3.4.2 算法执行时间分析
3.4.3 算法复杂度分析
3.4.4 实验结果分析
3.5 本章小结
第四章 基于密度权重Canopy的改进K-medoids算法
4.1 引言
4.2 K-medoids算法介绍
4.3 Canopy算法介绍
4.4 密度权重的Canopy算法
4.4.1 相关概念
4.4.2 算法流程
4.5 DWCK-medoids算法
4.6 仿真实验
4.6.1 真实数据集
4.6.2 人工数据集
4.7 本章小结
第五章 DWCK-medoids算法在文本聚类上的应用
5.1 引言
5.2 数据集介绍
5.3 DWCK-medoids算法应用
5.3.1 文本数据预处理
5.3.2 频繁词集挖掘
5.3.3 构建文本表示模型
5.3.4 相似度计算
5.3.5 聚类操作
5.3.6 主题描述
5.4 实验及结果分析
5.4.1 相关算法的参数设置
5.4.2 聚类性能比较
5.4.3 实验中对文本主题的描述
5.5 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间取得的学术成果
攻读硕士学位期间参加的研究项目
致谢
本文编号:3831231
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3831231.html
最近更新
教材专著