搜索引擎中查询扩展模块的设计与实现
发布时间:2017-09-02 09:36
本文关键词:搜索引擎中查询扩展模块的设计与实现
【摘要】:随着网络数据的迅猛增长,用户对搜索引擎的检索质量和个性化服务的要求不断提高。本文基于社区通信息化平台信息检索服务设计实现了查询扩展模块的实现方案,帮助社区通用户准确的在海量数据信息中找到满足自己需求的信息。在搜索引擎进行检索前,通过查询扩展模块对用户的查询条件进行扩展,可以有效的提高检索结果的全面性和准确率。另外,为了提供个性化服务,本文还利用用户的兴趣特征对检索结果进行优化,以满足用户的个性化需求。完成的主要工作概括如下: (1)采用查询扩展的方法对用户提供的查询关键词进行同义词扩展。利用《知网》知识描述语言对词语的描述实现词语相似度的计算,选取与初始查询词具有最大相似度的同义词作为候选扩展词。对于候选扩展词,本文采用查询其百度指数对其进行进一步的筛选,可以有效的避免将不相关的词语加入到扩展词集中。 (2)挖掘用户个性化兴趣特征优化信息检索查询结果。提取用户的历史浏览记录以及收藏夹中的信息,进行内容提取、数据清理等处理,得到包含用户兴趣的文本信息。基于文档向量之间的相似度,对文档集进行文本聚类,将文档集的聚类结果作为用户兴趣的分类结果,并在聚类的结果中提取出关键词来表示用户兴趣特征。 本文所研究的查询扩展模块和个性化模块已经融合到社区信息化平台的信息检索服务中,有效地提高了信息检索服务的质量,增强了社区通的用户体验,提升了用户黏度。
【关键词】:社区通 搜索引擎 查询扩展 知网 个性化
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-14
- 1.1 项目背景9-10
- 1.2 研究意义10
- 1.3 国内外研究状况10-12
- 1.3.1 搜索引擎研究状况10-11
- 1.3.2 查询扩展研究状况11-12
- 1.4 论文研究内容12-13
- 1.5 论文结构13-14
- 第二章 相关技术14-24
- 2.1 搜索引擎概述14
- 2.2 搜索引擎工作原理14-17
- 2.3 查询扩展技术17-21
- 2.3.1 基于全局分析的查询扩展技术18-19
- 2.3.2 基于局部分析的查询扩展技术19
- 2.3.3 基于相关反馈的查询扩展技术19-20
- 2.3.4 基于语义词典的查询扩展技术20
- 2.3.5 个性化的查询扩展技术20-21
- 2.4 语义词典《知网》21-24
- 2.4.1 概念及义原21-22
- 2.4.2 《知网》中的知识描述语言22-24
- 第三章 需求分析与系统设计24-31
- 3.1 系统需求分析24
- 3.2 系统总体设计24-29
- 3.2.1 查询扩展模块设计26-28
- 3.2.2 个性化模块设计28-29
- 3.3 系统功能目标29-31
- 3.3.1 查询关键词扩展29
- 3.3.2 查询百度指数29-30
- 3.3.3 用户兴趣特征提取30
- 3.3.4 搜索结果的筛选30-31
- 第四章 系统详细设计与实现31-54
- 4.1 查询扩展模块详细设计与实现31-44
- 4.1.1 查询扩展模块详细设计31-34
- 4.1.2 基于《知网》的词语相似度的计算34
- 4.1.3 义原相似度的计算34-39
- 4.1.4 概念相似度的计算39-44
- 4.1.5 词语相似度的计算44
- 4.2 个性化模块的设计与实现44-54
- 4.2.1 个性化模块的详细设计44-45
- 4.2.2 收集用户信息45-46
- 4.2.3 基于向量空间模型的文本聚类46-51
- 4.2.4 提取用户兴趣特征关键词51-54
- 第五章 测试结果与系统展示54-67
- 5.1 测试环境54
- 5.2 查询扩展模块测试结果54-58
- 5.2.1 义原相似度测试结果54-56
- 5.2.2 词语相似度测试结果56-57
- 5.2.3 查询扩展测试结果57-58
- 5.3 个性化模块测试结果58-60
- 5.4 系统搜索结果展示60-64
- 5.5 性能测试64-67
- 第六章 总结与展望67-69
- 6.1 总结67
- 6.2 展望67-69
- 参考文献69-71
- 致谢71
【参考文献】
中国期刊全文数据库 前9条
1 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
2 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
3 张立娜;杨之音;杨波;;第三代搜索引擎发展现状研究[J];科技情报开发与经济;2011年34期
4 袁晓峰;;《知网》义原相似度计算的研究[J];辽宁大学学报(自然科学版);2011年04期
5 吕碧波;赵军;;基于相关文档池建模的查询扩展[J];中文信息学报;2006年03期
6 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期
7 胡吉明;;个性化搜索引擎中的用户兴趣提取技术[J];图书馆学刊;2006年04期
8 高琰,谷士文,谭立球,费耀平;基于Lucene的搜索引擎设计与实现[J];微机发展;2004年10期
9 丁明;祝博;李龙森;;网络信息检索发展趋势展望[J];科技资讯;2006年04期
,本文编号:777798
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/777798.html