元搜索引擎结果聚类优化的研究与实现
发布时间:2023-10-31 08:44
在网络应用服务发展的今天,信息获取已成为网民使用Internet的主要目的之一。由于传统搜索引擎存在不足及自身的局限性,限制了人们对资源的获取。为提高用户查询信息的覆盖面和检索结果的准确性,一种建立在搜索引擎之上的元搜索引擎成为目前研究与开发的热点。但现存的大多数元搜索引擎以线性列表的方式为用户返回检索结果,其规模仍相当庞大,这使得用户可能用很多时间才能找到自己需要的结果。产生上述问题的主要原因是没有对检索结果进行分类处理和按照人们的查询习惯及检索经验进行再组织。因此,对检索结果进行聚类处理成为提高用户查找速度和快速定位所需信息的一个有效解决方案。 本文通过对元搜索引擎技术和数据挖掘技术研究的基础上,结合关联规则与聚类分析设计并实现了一个带聚类处理的元搜索引擎系统CMES(The Clustering Meta Search Engine),详细介绍了该系统的具体实现。 通过建立搜索引擎参数库,实现了检索请求向目的搜索引擎查询指令的转换,并实现了对目的搜索引擎返回的结果页面相关内容的自动提取;将结果记录中的标题和摘要进行分词处理后提取主要关键词集,用于建立关联词矩阵以及基于布尔函数和TFIDF函数表示结果特征向量,并对这两种表示方法在不同聚类算法下进行对比测试与分析;分别以k-means和FCM算法为基础提出基于关联词矩阵的k-means(k-meansAWM)和FCM(FCMAWM)结果聚类优化方案,并对它们进行对比测试与分析,选择其中较好者用于检索结果聚类;给出了系统的应用实例并对系统的性能进行了分析;最后对本文所做的工作进行了总结,并提出系统需要进一步完善的地方及下一步研究工作的方向。
【学位级别】:硕士
页数:92
文章目录
中文摘要
Abstract
第一章 绪论
1.1 论文研究背景
1.2 国内外研究现状
1.3 本文的研究意义和主要工作
1.4 本文的组织结构
第二章 元搜索引擎概述及相关知识
2.1 元搜索引擎技术
2.1.1 元搜索引擎的工作原理
2.1.2 元搜索引擎的分类
2.1.3 元搜索引擎的优势
2.1.4 元搜索引擎的评价指标
2.2 文档信息处理技术
2.2.1 文档表示模型
2.2.2 向量空间模型
2.2.3 中文分词
2.3 聚类分析
2.3.1 主要聚类方法的分类
2.3.2 模糊聚类
2.3.3 模糊聚类有效性
2.4 本章小结
第三章 基于AWM 的结果聚类优化
3.1 关联词矩阵
3.1.1 关联规则及基本概念
3.1.2 构建关联词矩阵
3.1.3 距离与相似系数
3.2 基于AWM 的结果聚类优化
3.2.1 结果特征向量表示
3.2.2 k-meansAWM 聚类
3.2.3 FCMAWM 聚类
3.3 算法的测试与分析
3.3.1 测试数据的选择及准备工作
3.3.2 结果TFIDF 特征向量中参数的取值
3.3.3 基于k-meansAWM 的结果聚类测试与分析
3.3.4 基于FCMAWM 的结果聚类测试与分析
3.3.5 总体比较
3.4 本章小结
第四章 元搜索引擎CMES 的设计
4.1 系统框架
4.2 关键技术分析与设计
4.2.1 检索请求分析
4.2.2 检索任务分配
4.2.3 检索结果预处理
4.2.4 检索结果聚类
4.3 搜索引擎参数库
4.3.1 搜索引擎查询参数特征表
4.3.2 搜索引擎结果参数特征表
4.4 数据库连接
4.5 本章小结
第五章 CMES 的实现及系统性能测试与分析
5.1 MVC 设计模式与STRUTS 框架
5.1.1 MVC 模式概述
5.1.2 Struts 框架
5.2 系统中主要模块的实现
5.2.1 检索任务分配模块
5.2.2 检索结果预处理模块
5.2.3 检索结果聚类模块
5.3 系统应用
5.3.1 查询界面
5.3.2 检索结果界面
5.3.3 再搜索功能
5.4 系统性能分析
5.5 本章小结
第六章 总结与展望
6.1 研究总结
6.2 对今后工作的展望
参考文献
攻读学位期间发表(录用)论文
致谢
附录A 成员搜索引擎的结果参数标识
附录B 其他元搜索引擎搜索“手机”的返回页面
详细摘要
[1] 搜索引擎搜索结果的聚类研究. 周登朋.上海交通大学,2007
[2] 模糊聚类算法及其有效性研究. 鲍正益.厦门大学,2006
[3] 中文文本分类中特征描述及分类器构造方法研究. 刘里.重庆大学,2006
[4] 中文文本分类中特征提取算法研究. 彭时名.重庆大学,2006
[5] 基于自动分类的元搜索引擎的研究与应用. 杨才峰.华北电力大学(河北),2005
本文编号:66337
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/66337.html