分布式信息检索的资源库选择与结果融合的学习算法研究
发布时间:2021-11-08 03:20
信息检索技术为人们日常信息搜索以及信息筛选提供了便利的服务,随着网络信息量的不断增加,人们常常希望能快速搜索到多样化的、更相关的检索结果。分布式信息检索技术可以把查询转发给相关的分布式资源库,并整合多样化的检索结果返回给用户,以满足用户的多方面检索需求。分布式信息检索通常分为协作式的环境与非协作式的环境,在协作式的环境中,检索代理能获取资源库的内部所有的信息。而在非协作式的环境中,检索代理通常通过查询采样的方式获得资源库的信息。在分布式信息检索中,影响资源库选择以及结果融合的因素往往众多,结合多因素进行学习,能有效的拟合多方面特征,提高资源库选择以及结果融合的效果。本文首先提出基于排序学习的资源库选择算法LTRRS,通过分析影响资源库选择的因素,提取了资源库的词项匹配、中央采样索引库、主题相关性三个方面的特征,在LTRRS算法中通过训练LambdaMART的排序学习模型,对资源库排序列表指标NDCG值进行优化,来提高资源库选择效果。在搜狗数据集SogouQCL上的实验结果表明,LTRRS算法的效果与对比方法相比,在NDC...
【文章来源】: 华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 资源库选择
1.2.2 结果融合
1.3 论文主要工作
1.4 论文的组织结构
第二章 相关理论和技术
2.1 引言
2.2 信息检索相关理论
2.2.1 检索模型
2.3 排序学习算法
2.3.1 Pointwise方法
2.3.2 Pairwise方法
2.3.3 Listwise方法
2.4 深度学习算法
2.4.1 变分自编码器
2.4.2 NVDM模型
2.5 分布式信息检索的评价
2.6 本章小结
第三章 协作式环境下的资源库选择算法
3.1 问题描述
3.2 特征提取
3.2.1 词项匹配特征
3.2.2 中央采样索引库特征
3.2.3 主题相关特征
3.3 基于排序学习的资源库选择算法LTRRS
3.4 实验设置
3.4.1 实验环境
3.4.2 实验数据集与预处理
3.4.3 中央采样索引库(CSI)设置
3.5 实验结果分析
3.5.1 算法整体比较
3.5.2 特征分析
3.6 本章小结
第四章 非协作环境下的资源库选择算法
4.1 问题描述
4.2 基于变分自编码器的资源库选择算法VAERS
4.2.1 基于变分自编码器的资源库表示
4.2.2 查询表示
4.2.3 相关度衡量
4.3 实验设置
4.3.1 实验环境
4.3.2 数据集
4.3.3 变分自编码器训练设置
4.3.4 查询处理设置
4.4 实验结果分析
4.5 本章小结
第五章 基于排序学习的检索结果融合算法
5.1 问题描述
5.2 结果融合排序学习框架
5.3 特征描述
5.3.1 文档特征
5.3.2 结果列表特征
5.3.3 资源库特征
5.3.4 垂直领域特征
5.4 基于排序学习的结果融合算法LTRMerge
5.5 实验设置
5.5.1 数据集
5.5.2 实验环境
5.5.3 实验设置以及对比模型
5.6 实验结果分析
5.6.1 整体效果分析
5.6.2 特征分析
5.6.3 训练时间对比
5.7 本章小结
总结和展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]变分自编码器模型综述 [J]. 翟正利,梁振明,周炜,孙霞. 计算机工程与应用. 2019(03)
硕士论文
[1]面向多领域非协作环境的分布式检索算法研究[D]. 陈建豪.华南理工大学 2017
[2]基于垂直领域的分布式搜索多样性的研究与实现[D]. 谢一帆.华南理工大学 2016
本文编号:3482902
【文章来源】: 华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 资源库选择
1.2.2 结果融合
1.3 论文主要工作
1.4 论文的组织结构
第二章 相关理论和技术
2.1 引言
2.2 信息检索相关理论
2.2.1 检索模型
2.3 排序学习算法
2.3.1 Pointwise方法
2.3.2 Pairwise方法
2.3.3 Listwise方法
2.4 深度学习算法
2.4.1 变分自编码器
2.4.2 NVDM模型
2.5 分布式信息检索的评价
2.6 本章小结
第三章 协作式环境下的资源库选择算法
3.1 问题描述
3.2 特征提取
3.2.1 词项匹配特征
3.2.2 中央采样索引库特征
3.2.3 主题相关特征
3.3 基于排序学习的资源库选择算法LTRRS
3.4 实验设置
3.4.1 实验环境
3.4.2 实验数据集与预处理
3.4.3 中央采样索引库(CSI)设置
3.5 实验结果分析
3.5.1 算法整体比较
3.5.2 特征分析
3.6 本章小结
第四章 非协作环境下的资源库选择算法
4.1 问题描述
4.2 基于变分自编码器的资源库选择算法VAERS
4.2.1 基于变分自编码器的资源库表示
4.2.2 查询表示
4.2.3 相关度衡量
4.3 实验设置
4.3.1 实验环境
4.3.2 数据集
4.3.3 变分自编码器训练设置
4.3.4 查询处理设置
4.4 实验结果分析
4.5 本章小结
第五章 基于排序学习的检索结果融合算法
5.1 问题描述
5.2 结果融合排序学习框架
5.3 特征描述
5.3.1 文档特征
5.3.2 结果列表特征
5.3.3 资源库特征
5.3.4 垂直领域特征
5.4 基于排序学习的结果融合算法LTRMerge
5.5 实验设置
5.5.1 数据集
5.5.2 实验环境
5.5.3 实验设置以及对比模型
5.6 实验结果分析
5.6.1 整体效果分析
5.6.2 特征分析
5.6.3 训练时间对比
5.7 本章小结
总结和展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]变分自编码器模型综述 [J]. 翟正利,梁振明,周炜,孙霞. 计算机工程与应用. 2019(03)
硕士论文
[1]面向多领域非协作环境的分布式检索算法研究[D]. 陈建豪.华南理工大学 2017
[2]基于垂直领域的分布式搜索多样性的研究与实现[D]. 谢一帆.华南理工大学 2016
本文编号:3482902
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3482902.html
最近更新
教材专著