搜索引擎返回结果聚类技术研究与实现.pdf 全文 文档投稿网
本文关键词:搜索引擎返回结果聚类技术的研究与实现,由笔耕文化传播整理发布。
西南交通大学
硕士学位论文
搜索引擎返回结果聚类技术的研究与实现
姓名:陈菊红
申请学位级别:硕士
专业:计算机应用技术
指导教师:金炜东
20090601第页
西南交通大学硕士研究生学位论文
摘要
随着因特网技术的飞速发展和搜索引擎技术的日趋成熟,人们逐渐开始频繁
利用网络来获取所需的资源,而现有的搜索引擎返回的查询结果数量庞大且呈线
性排列,用户很难在较短的时间内找到有用的信息,因此如何能够快捷、准确地
发现信息则成为目前信息检索领域亟待解决的问题。文本聚类具有较强的灵活性
和自动处理能力,已经逐渐成为对搜索引擎进行有效地组织和导航的重要手段。
本文就文本聚类算法进行了深入的研究,采用聚类算法作为主要框架,
探索和研究文本聚类在搜索引擎领域内的应用,主要研究工作如下:
文本预处理的许多关键技术直接影响聚类的效果,因此本文对文本聚类预处
理中涉及的关键技术做了深入的研究,在此基础上设计和实现了包含网页去噪、
词干提取、停止词过滤等功能的预处理子系统。
?是向量空间模型中最常
用的权重计算方法,它可以有效地强化在文档中出现的高频词汇的权重,弱化在
文档集合中出现频率较高但是包含文档信息量少的常用词的权重。但是,事实上
词对文档的重要程度还与词的词性以及词在文档中的位置因素有关,因此本文在
传统的的基础上加入词性权重与位置权重对其进行修正,实验证明改进
后的?可以更加准确的描述词对文档的重要程度,有效地提高了聚类算法
的查准率和查全率,使算法的整体性能有了较大的提高。
本文对聚类算法做了深入的研究和分析,通过对比实验证明它比目前
流行的后缀树算法聚类的性能更优,提取出的类标签更能反映类别信息,
易于理
本文关键词:搜索引擎返回结果聚类技术的研究与实现,由笔耕文化传播整理发布。
,本文编号:130658
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/130658.html