当前位置:主页 > 科技论文 > 搜索引擎论文 >

K-means算法的改进及其在文本聚类中的应用研究

发布时间:2023-05-07 17:48
  互联网的快速发展和广泛普及,使网络上文本数据呈爆炸性增长,如何及时准确地从这些大数据文本中获得有价值的信息是学者们研究的热点问题。在此情况下,利用文本聚类对大规模文本信息进行组织、提取重要特征,发现有用价值,以达到减少人工整理文档的工作量,提高文档检索效率,文本聚类的应用前景和研究意义非常深远。K-means算法由于具有简单、速度快等优点在文本聚类中普遍运用。然而K-means算法本身存在一些缺点,如初始中心的选择具有随机性,算法不稳定,并且会收敛于聚类局部最优,同样,k值的选择往往根据用户的个人经验,而k值的选取却直接影响聚类结果的好坏。论文针对K-means算法的这些缺点展开研究并进行改进优化,并将优化后的算法应用到文本聚类实例中,论文主要做了如下工作:第一,快速密度峰值搜索算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新颖、简洁、高效、基于密度的聚类算法,它可以聚类各种类型的点集。然而当数据集中存在某个类具有多密度峰值情形时,CFSFDP算法不能有效聚类此类数据集。针对这个问题,论文提出基于边界样...

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 论文研究内容和创新点
    1.4 论文的组织结构
第二章 相关理论与技术
    2.1 文本预处理
        2.1.1 文本分词
        2.1.2 词性标注
        2.1.3 停用词过滤
    2.2 文本特征词提取
        2.2.1 文档频率
        2.2.2 信息增益
        2.2.3 互信息
        2.2.4 卡方检验
    2.3 文本表示模型
        2.3.1 布尔模型
        2.3.2 向量空间模型
        2.3.3 概率模型
    2.4 文本相似度计算
    2.5 聚类分析原理
        2.5.1 聚类分析的定义
        2.5.2 对聚类算法性能要求
        2.5.3 聚类分析中的数据类型
    2.6 聚类算法分类
        2.6.1 基于划分的聚类算法
        2.6.2 基于层次的聚类算法
        2.6.3 基于密度的聚类算法
        2.6.4 基于网格的聚类算法
        2.6.5 基于模型的聚类算法
    2.7 文本挖掘面临的新课题
    2.8 本章小结
第三章 基于边界样本优化的快速密度峰值搜索算法
    3.1 快速密度峰值搜索算法
        3.1.1 算法思想
        3.1.2 算法的缺陷分析
    3.2 基于边界样本优化的快速密度峰值搜索算法
        3.2.1 M-CFSFDP算法
        3.2.2 M-CFSFDP算法描述
    3.3 实验结果与分析
    3.4 本章小结
第四章 密度峰值优化初始中心的K-means算法
    4.1 K-means算法
        4.1.1 K-means算法思想
        4.1.2 K-means算法优缺点分析
    4.2 基于势能优化的CFSFDP算法
        4.2.1 P-CFSFDP算法
        4.2.2 实验分析
    4.3 密度峰值优化初始中心的K-means算法
        4.3.1 使用密度峰值优化初始中心
        4.3.2 KP-CFSFDP算法描述
    4.4 实验结果与分析
    4.5 本章小结
第五章 基于KP-CFSFDP算法的最佳聚类数确定方法
    5.1 k值不确定性问题
    5.2 最佳聚类数研究
    5.3 KP-CFSFDP最佳聚类数确定方法
        5.3.1 确定最佳聚类数搜索范围
        5.3.2 IKP-CFSFDP算法描述
    5.4 实验结果与分析
    5.5 本章小结
第六章 IKP-CFSFDP算法在文本聚类中的应用
    6.1 文本聚类数据来源
    6.2 文本聚类系统的具体实现
        6.2.1 开发平台
        6.2.2 文本聚类系统的设计和实现
    6.3 结果分析
    6.4 本章小结
第七章 总结与展望
    7.1 总结
    7.2 展望
致谢
参考文献
附录: 作者在攻读硕士学位期间发表的论文



本文编号:3811040

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3811040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7973***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com