当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索结果的聚类研究

发布时间:2021-08-16 08:42
  随着互联网技术的普及和发展,网络信息呈指数式增长。面对海量的信息,搜索引擎成为人们日常获取所需信息的重要工具。但是传统的搜索引擎将搜索结果以线性列表的方式排列,使得用户无法快速、准确地获得感兴趣的信息。因此,使用聚类算法对搜索结果进行聚类,可以帮助用户快速查找到所需信息。本文在对中文分词、特征选择、权重计算、相似度度量等文本聚类技术进行深入研究的基础上,分析了搜索结果聚类与文本聚类之间的联系。根据搜索结果聚类的特点,提出一种基于改进的K-Means算法的搜索结果聚类方法。基于划分的K-Means算法是一种被广泛应用的动态聚类算法,具有实现简单、收敛速度快等优点。但该算法存在一些不足使其无法适应搜索结果聚类,比如:人工指定聚类个数、随机生成聚类中心、对孤立点敏感、无法“软聚类”和无法生成聚类标签等。针对以上K-Means算法的不足,对其进行了改进:首先,利用基于密度的最大最小距离法发现初始聚类中心,即将密度最大的对象作为第一个初始聚类中心,再根据最大最小距离选择其余的聚类中心,然后根据文本平均相似度设置参数作为终止条件,确定聚类个数;其次,引入邻居的概念,获取初始聚类中心的邻居,根据邻居... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

搜索结果的聚类研究


中国网民规模和互联网普及率

中国网,页数,网络信息


图 1-2 中国网页数引擎的出现满足了人们查找网络信息的需求。搜索引擎根据用户输入的查上进行搜索与查询词相关的内容,然后快速地返回查询结果供用户选择[2人们获取网络信息提供了极大的便利,成为信息时代不可或缺的工具。从

搜索引擎,百度,页面,含义


图 1-3 百度搜索引擎搜索结果返回页面查询词歧义性不强或者搜索引擎返回的结果含义明确可以很好的满足用户的需求。但是如果查询词本身具有了查询词的多个方面的含义,这种排列方式就会可能导

【参考文献】:
期刊论文
[1]基于密度与最小距离的K-means算法初始中心方法[J]. 戚后林,顾磊.  计算机技术与发展. 2017(09)
[2]TF-IDF与规则相结合的中文关键词自动抽取研究[J]. 牛萍,黄德根.  小型微型计算机系统. 2016(04)
[3]网络检索结果聚类研究综述[J]. 柏晗,成颖,柯青.  情报理论与实践. 2015(10)
[4]一种基于最大最小距离和SSE的自适应聚类算法[J]. 成卫青,卢艳红.  南京邮电大学学报(自然科学版). 2015(02)
[5]一种改进的k-means文本聚类优化方法[J]. 王琼.  计算机与现代化. 2015(03)
[6]基于划分的聚类算法研究综述[J]. 贾瑷玮.  电子设计工程. 2014(23)
[7]面向未登录领域词切分的中文分词技术研究[J]. 蔡荣彦.  信息系统工程. 2013(11)
[8]最大距离法选取初始簇中心的K-means文本聚类算法的研究[J]. 翟东海,鱼江,高飞,于磊,丁锋.  计算机应用研究. 2014(03)
[9]搜索引擎技术与发展综述[J]. 孙宏,李戴维,董旭阳,季泽旭.  计算机光盘软件与应用. 2012(14)
[10]基于优化初始中心点的K-means文本聚类算法[J]. 张世博.  计算机与数字工程. 2011(10)

硕士论文
[1]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017
[2]K-medoids聚类算法研究及其在文本聚类中的应用[D]. 王李福.重庆理工大学 2017
[3]K-means算法的改进及其在文本数据聚类中的应用[D]. 王玉洁.西安科技大学 2016
[4]基于K-means算法的Web短文本聚类方法研究与应用[D]. 张立说.齐鲁工业大学 2016
[5]基于Nutch的搜索引擎排序算法的研究与实现[D]. 李青淋.东南大学 2016
[6]中文短文本聚类算法的研究[D]. 程杨.吉林大学 2016
[7]基于向量空间模型的文本相似度算法研究[D]. 谭静.西南石油大学 2015
[8]开源中文分词器的比较研究[D]. 黄翼彪.郑州大学 2013
[9]基于Nutch的聚类搜索引擎的研究与实现[D]. 谢红伟.华南理工大学 2013
[10]K-Means算法研究及在文本聚类中的应用[D]. 陈宝楼.安徽大学 2013



本文编号:3345354

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3345354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d460c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com