联邦检索系统的关键技术研究与实现
发布时间:2017-12-17 02:08
本文关键词:联邦检索系统的关键技术研究与实现
更多相关文章: 联邦检索系统 资源库描述 资源库选择 垂直领域选择 结果融合
【摘要】:联邦检索是信息检索的重要研究领域之一。虽然许多通用的搜索引擎能帮助用户找到所需的信息,但是一些无法被爬取的深度网的广泛存在,限制了用户对信息的有效获取。而联邦检索技术,可以有效的解决这个问题。联邦检索是同时查询多个单元搜索引擎(又叫资源库)的技术。本文分别就联邦检索系统的资源库描述、资源库选择、垂直领域选择和结果融合等关键技术进行研究。论文主要工作包括:(1)在资源库描述方面,为验证基于查询的抽样方法在中文数据集上的有效性,本文通过爬取搜狐网的网页数据并建立了中文数据集,将基于查询的抽样方法应用到该数据集上,实验证明了该方法在中文数据集上的有效性。(2)在资源库选择方面,为了将已有的资源库选择方法应用在具有多个真实网络搜索引擎的联邦检索系统上,本文分别针对原始资源库网页数估计不准确和待选择资源库数目不足的问题,使用四种不同的策略进行研究。实验结果表明本文提出的策略能有效应用于具有多个真实网络搜索引擎的联邦检索环境。(3)在垂直领域选择方面,本文在资源库选择的基础上,提出了一种基于规则的垂直领域选择算法。该算法等价于将每个垂直领域看成一个统一的资源库,并使用基于规则的资源库选择方法进行垂直领域选择。实验结果表明该算法与已有的垂直领域选择方法相比,在准确率和召回率方面都有较大的提升。(4)在查询结果的融合方面,本文基于资源库具有的垂直领域特性,提出了一种基本的结果融合算法框架,该框架主要解决网页、资源库和垂直领域得分的归一化问题。基于此算法框架,本文提出了两种结果融合算法。实验结果表明本文提出的两种算法与已有的方法相比,在搜索结果的准确率方面提升了23%以上,在垂直领域多样性方面也有不错的表现。在以上研究的基础上,本文根据分布式搜索引擎平台SE6的特点,设计了资源选择和结果融合模块。系统运行结果再次表明本文提出的资源选择和结果融合方法能有效提升系统的查询准确率。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【引证文献】
中国期刊全文数据库 前1条
1 董守斌;谢一帆;袁华;陈建豪;;基于主题模型的资源选择算法[J];华南理工大学学报(自然科学版);2017年03期
中国硕士学位论文全文数据库 前2条
1 谢一帆;基于垂直领域的分布式搜索多样性的研究与实现[D];华南理工大学;2016年
2 洪瑞琦;分布式信息检索系统的优化设计和实现[D];华南理工大学;2016年
,本文编号:1298325
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1298325.html