kmeans聚类算法的改进及其在信息检索系统中的应用
发布时间:2017-10-22 21:10
本文关键词:kmeans聚类算法的改进及其在信息检索系统中的应用
【摘要】:随着互联网的不断发展,信息飞速增长。怎样从杂乱的信息中,准确、及时获得有利信息已成为现今面临并急需解决的一个巨大问题。信息检索技术的出现为高速、有效地获取信息提供了很好的途径,其中搜索引擎就是最好的代表。如何对检索到的结果进行分类管理是信息检索过程中最为重要的一部分直接影响着结果其有效性。聚类的出现就很好地实现了对大量信息的有效管理,并且聚类现今不仅是在信息检索方面应用广泛,同时在有关多文本处理等领域也得到了应用。原有Kmeans聚类算法,为应用最为普遍的聚类算法。但需要人为设定聚类数目以及其初始聚类中心是随机选取。基于原有Kmeans聚类算法存在的问题,本文介绍了如何结合二叉树及原有Kmeans聚类算法来解决Kmeans聚类算法存在的一些问题。改进后的算法其主要包括两部分。一部分是对聚类对象进行建树,另一部分是对建好的树进行剪枝操作,这两个部分紧密相连缺一不可。根据改进后的算法的特性将其应用于信息检索系统中。改进后的聚类算法是在Eclipse平台实现的,并且在信息检索系统中取得了很好的聚类效果。
【关键词】:聚类 Kmeans 信息检索
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- Abstract4-7
- 第1章 前言7-11
- 1.1 研究背景7
- 1.2 研究目的及意义7-8
- 1.3 国内外研究状况8
- 1.4 论文组织结构8-11
- 第2章 相关理论基础11-23
- 2.1 Web数据挖掘概述11
- 2.2 Web数据挖掘的分类11-13
- 2.3 爬虫13-14
- 2.4 正则表达式14
- 2.5 Web文本预处理14-17
- 2.5.1 分词14-16
- 2.5.2 去停用词16
- 2.5.3 提取关键词16-17
- 2.6 聚类17-19
- 2.6.1 类间相似度18-19
- 2.7 二叉树19-20
- 2.8 Trie树20-21
- 2.9 隐马尔可夫模型21
- 2.10 Viterbi算法21-22
- 2.11 本章小结22-23
- 第3章 改进的kmeans聚类算法23-37
- 3.1 传统的Kmeans聚类算法23-24
- 3.2 改进的聚类算法24-26
- 3.3 原kmeans聚类算法与改进后的聚类算法对比分析26-34
- 3.3.1 初始质心的选择26-29
- 3.3.2 聚类参数k的确定29-34
- 3.4 算法讨论34
- 3.5 改进后的聚类算法的聚类效果分析34-36
- 3.6 本章小结36-37
- 第4章 改进的聚类算法在信息检索系统中的应用37-49
- 4.1 开发环境37-38
- 4.2 信息检索的原理38-39
- 4.3 信息爬取39-41
- 4.4 文本预处理41-44
- 4.4.1 分词42
- 4.4.2 去除停用词42-43
- 4.4.3 关键词提取算法43-44
- 4.5 聚类44-47
- 4.6 本章小结47-49
- 第5章 总结与展望49-51
- 参考文献51-55
- 致谢55
本文编号:1080102
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1080102.html