基于相关性判据的信息检索优化
发布时间:2020-11-20 21:47
信息检索的出现使得人们获取信息的效率得到了较大的提高,信息检索的其本质是用户需求与文献集的匹配过程,用户将需求通过初始查询式的形式表达出来,根据某种检索模型在检索系统中查找自己所需的信息,也就是说,信息检索是个用户需求与检索对象相匹配的一个过程,本质是种相关性检索。在21世纪之前,学界对于信息检索的研究侧重于系统观的相关性,通过对检索系统的检索机制、信息源的组织形式和相关性评级算法的探讨以期能提高信息系统的检索性能。 随着科技和社会发展,尤其是最近几年人机互动和智能检索的兴起,信息检索中人的作用越来越受到重视,以人为本的相关反馈在未来应该是信息检索的主流,学者们对信息检索中相关性的影响因素和提高技术开始进行深入的研究,典型的有相关反馈技术。影响相关性的因素多种多样,学者们进行了广泛的摸索,用户决定了查询式的质量,查询式依赖于用户,因此用户是相关反馈的最重要影响因素。信息检索系统的核心是相关性评价,在相关反馈中,用户是相关性评价的主导,这个评价过程受用户自身和情境影响,主观性很强。在信息检索领域尤其是在国内,针对信息检索系统的查询扩展研究较为成熟,但是基于用户的相关反馈研究比较少,且目前为止还大部分研究还是基于理论,对相关性影响因素的实证研究较少。 鉴于此,本文综述了目前国内外的信息检索优化技术和相关性研究现状,归纳了相关性定义、评价、影响因素和提高技术,重点介绍了用户相关反馈技术,并建立了一个信息检索系统,采用国际标准五大测试集Cranfield, Medline, CISI, NPL和CACM作为语料库,并建立索引,将广为应用的向量空间模型作为信息检索模型,利用TF-IDF算法计算权重,检索系统采用改进的计算公式Ide Dec-hi优化查询向量,在此平台上运行了三部分信息检索实验,第一部分没有相关反馈,用户不需要参与反馈,输入检索查询式后,检索系统输出检索文献集,这个部分作为BASELINE,检索结果作为参照基准;第二部分基于相关反馈,检索系统输出检索结果后,用户需要判断排在前面的N(参照Salton和Buckley的实验,N值取15)篇文献哪些是相关文献和不相关文献,然后进行二次检索,检索系统根据用户反馈的结果,利用Ide Dec-hi算法重新计算文献集和查询式的相似度,再将检索结果反馈给用户,这部分是为对照组。第三部分基于相关性判据集和相关反馈,类似于第二部分,不同在于用户在进行相关性判断时不是随性的,而是根据既定的判断依据来,此部分即为实验组。本文试图通过实证研究证实相关反馈技术和依据相关性判据集对提高相关性具有良好的效果,并提出了本文的不足和后期研究应该做的工作。
【学位单位】:南京大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:G354
【文章目录】:
中文摘要
Abstract
论文表格目录
论文图表目录
1. 绪论
1.1. 研究背景
1.2. 研究内容
1.3. 研究意义
1.4. 论文组织结构
2. 信息检索及查询扩展技术研究
2.1. 信息检索概述
2.1.1. 向量模型
2.1.2. 概率模型
2.1.3. 布尔模型
2.2. 查询扩展
2.2.1. 基于全局分析的查询扩展技术
2.2.1.1. 文本聚类
2.2.1.2. 潜在语义索引
2.2.1.3. 相似性词典
2.2.2. 基于局部分析的查询扩展技术
2.2.2.1. 局部聚类
2.2.2.2. 局部上下文分析
2.2.3. 基于语义词表的查询扩展技术
3. 信息检索中相关性研究
3.1. 相关性定义
3.1.1. 面向系统的相关性
3.1.2. 面向用户的相关性
3.1.3. 系统和用户相结合的相关性
3.2. 相关性度量和评价
3.2.1. 系统观相关性度量及其评价指标
3.2.1.1. 基于不同检索方式的相关性度量
3.2.1.1.1. 基于向量空间模型的相关性度量
3.2.1.1.2. 基于概率模型的相关性度量
3.2.1.1.3. 基于布尔模型的相关性度量
3.2.1.2. 常用评价指标
3.2.2. 用户相关性度量判断和评价
3.3. 相关性影响因素
3.4. 相关性提高技术研究
3.4.1. 用户相关性
3.4.2. 系统观相关性
3.4.3. 用户相关反馈技术
3.4.3.1. 基于向量空间模型的相关反馈
3.4.3.1.1. 向量空间模型的相关反馈权重计算
3.4.3.1.2. 向量空间模型的相关反馈的优缺点
3.4.3.2. 基于概率模型的相关反馈
3.4.3.2.1. 经典概率模型的相关反馈权重计算
3.4.3.2.2. 经典概率模型相关反馈优缺点
3.4.3.3. 基于布尔模型的相关反馈
3.4.3.4. 用户相关反馈小结
4. 实验及结果分析
4.1. 实验框架
4.2. 数据预处理
4.2.1. 测试集简介
4.2.2. 文献和查询的预处理
4.2.3. 相似度计算和评价
4.3. 实验内容
4.3.1. BASELINE
4.3.2. 对照组
4.3.3. 实验组
4.4. 结果分析
4.4.1. 实验结果
4.4.2. 结果分析
5. 总结与展望
5.1. 研究总结
5.2. 进一步工作
参考文献
攻读硕士期间主要科研及成果
致谢
【参考文献】
本文编号:2892039
【学位单位】:南京大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:G354
【文章目录】:
中文摘要
Abstract
论文表格目录
论文图表目录
1. 绪论
1.1. 研究背景
1.2. 研究内容
1.3. 研究意义
1.4. 论文组织结构
2. 信息检索及查询扩展技术研究
2.1. 信息检索概述
2.1.1. 向量模型
2.1.2. 概率模型
2.1.3. 布尔模型
2.2. 查询扩展
2.2.1. 基于全局分析的查询扩展技术
2.2.1.1. 文本聚类
2.2.1.2. 潜在语义索引
2.2.1.3. 相似性词典
2.2.2. 基于局部分析的查询扩展技术
2.2.2.1. 局部聚类
2.2.2.2. 局部上下文分析
2.2.3. 基于语义词表的查询扩展技术
3. 信息检索中相关性研究
3.1. 相关性定义
3.1.1. 面向系统的相关性
3.1.2. 面向用户的相关性
3.1.3. 系统和用户相结合的相关性
3.2. 相关性度量和评价
3.2.1. 系统观相关性度量及其评价指标
3.2.1.1. 基于不同检索方式的相关性度量
3.2.1.1.1. 基于向量空间模型的相关性度量
3.2.1.1.2. 基于概率模型的相关性度量
3.2.1.1.3. 基于布尔模型的相关性度量
3.2.1.2. 常用评价指标
3.2.2. 用户相关性度量判断和评价
3.3. 相关性影响因素
3.4. 相关性提高技术研究
3.4.1. 用户相关性
3.4.2. 系统观相关性
3.4.3. 用户相关反馈技术
3.4.3.1. 基于向量空间模型的相关反馈
3.4.3.1.1. 向量空间模型的相关反馈权重计算
3.4.3.1.2. 向量空间模型的相关反馈的优缺点
3.4.3.2. 基于概率模型的相关反馈
3.4.3.2.1. 经典概率模型的相关反馈权重计算
3.4.3.2.2. 经典概率模型相关反馈优缺点
3.4.3.3. 基于布尔模型的相关反馈
3.4.3.4. 用户相关反馈小结
4. 实验及结果分析
4.1. 实验框架
4.2. 数据预处理
4.2.1. 测试集简介
4.2.2. 文献和查询的预处理
4.2.3. 相似度计算和评价
4.3. 实验内容
4.3.1. BASELINE
4.3.2. 对照组
4.3.3. 实验组
4.4. 结果分析
4.4.1. 实验结果
4.4.2. 结果分析
5. 总结与展望
5.1. 研究总结
5.2. 进一步工作
参考文献
攻读硕士期间主要科研及成果
致谢
【参考文献】
相关期刊论文 前10条
1 王雅坤;成全;;信息检索相关性研究综述及发展趋势[J];图书与情报;2012年01期
2 袁占亭,张爱民,张秋余;基于概念的Web信息检索[J];计算机工程与应用;2003年36期
3 顾榕,王小平,曹立明;一种基于潜在语义分析的查询扩展算法[J];计算机工程与应用;2004年18期
4 闭剑婷;苏一丹;;基于潜在语义分析的跨语言查询扩展方法[J];计算机工程;2009年10期
5 张敏,宋睿华,马少平;基于语义关系查询扩展的文档重构方法[J];计算机学报;2004年10期
6 冯运;陈治平;;基于局部类别分析的查询扩展[J];计算机应用;2007年01期
7 贺宏朝,何丕廉,高剑峰,黄昌宁;一种基于上下文的中文信息检索查询扩展[J];中文信息学报;2002年06期
8 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
9 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
10 张保明;;查全率—查准率互逆相关性的数学解释[J];情报科学;1982年02期
相关博士学位论文 前1条
1 成颖;信息检索相关性判据及应用研究[D];南京大学;2011年
本文编号:2892039
本文链接:https://www.wllwen.com/tushudanganlunwen/2892039.html