面向查询理解的扩展词排序模型研究与应用
发布时间:2021-04-24 23:37
近年来,随着互联网数据规模的持续增长,信息检索技术得到广泛关注,并被应用于多种垂直领域检索场景。信息检索旨在根据用户查询,在大规模数据中查找与查询相关的文档或网页,并根据其相关程度给出相应的排序列表。而用户提交给搜索引擎的查询往往仅包含少量关键词,很难全面描述用户的信息需求,进而对查询意图的理解带来模糊性和不确定性,因此,如何准确有效地理解用户查询对于检索性能的提升至关重要,也是信息检索性能优化的核心方向之一。为精确地理解用户查询,提升检索性能,本文从如下三个方面展开研究,具体内容包括:1、针对伪相关反馈中的扩展词选择问题,提出一种基于伪相关反馈的扩展词排序模型。该模型以伪相关反馈方法为基础,将排序学习作为核心技术,通过监督学习构建候选扩展词排序模型,用以选择最符合用户信息需求的扩展词,补充和完善原始查询,提高扩展查询的质量。在模型构建中,分别对候选扩展词选择、扩展词相关性标注、扩展词特征抽取和排序模型构建等方面给出具体优化策略,并基于三个标准TREC检索数据集展开实验,实验结果表明本文方法能够有效提升通用领域信息检索的性能。2、针对生物医学文献检索中的查询理解问题,提出一种面向生物医...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:132 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
主要符号表
1 绪论
1.1 研究背景与意义
1.2 国内外相关工作研究综述
1.2.1 查询理解相关研究
1.2.2 排序模型相关研究
1.2.3 垂直检索相关研究
1.3 本文主要研究思路
1.4 本文组织结构
2 基于伪相关反馈的扩展词排序模型
2.1 引言
2.2 方法整体流程
2.3 候选扩展词选择
2.4 候选扩展词相关性标注
2.5 候选扩展词特征抽取
2.5.1 基于上下文的候选扩展词特征
2.5.2 基于词向量的候选扩展词特征
2.6 候选扩展词排序模型构建
2.7 实验结果及分析
2.7.1 实验设置
2.7.2 整体检索性能评估
2.7.3 候选扩展词选择效果评估
2.7.4 扩展词标注有效性评估
2.7.5 扩展词特征有效性评估
2.7.6 词排序准确率评估
2.7.7 参数选择
2.8 本章小结
3 面向生物医学文献检索的扩展词排序模型
3.1 引言
3.2 方法整体流程
3.3 基于医学主题词表的候选扩展词选择
3.3.1 基于词依赖模型的扩展词加权
3.3.2 基于医学主题词表的扩展词加权
3.3.3 融合词依赖和医学主题词表的候选扩展词加权
3.4 融合查询主题信息的扩展词相关性标注
3.5 面向生物医学文献的扩展词特征抽取
3.5.1 基于上下文的候选扩展词特征
3.5.2 基于领域的候选扩展词特征
3.6 面向生物医学文献检索的扩展词排序模型构建
3.7 实验结果及分析
3.7.1 实验设置
3.7.2 生物医学文献检索整体性能评估
3.7.3 生物医学候选扩展词选择效果评估
3.7.4 生物医学扩展词标注有效性评估
3.7.5 生物医学扩展词特征有效性评估
3.7.6 生物医学扩展词排序准确率评估
3.7.7 参数选择
3.8 本章小结
4 面向代码信息检索的扩展词排序模型
4.1 引言
4.2 方法整体框架
4.3 基于代码片段信息的候选扩展词选择
4.3.1 基于词依赖模型的扩展词加权
4.3.2 候选代码片段加权
4.3.3 基于代码文件的共现频率
4.3.4 面向代码片段的候选扩展词依赖模型
4.4 融合代码信息的扩展词相关性标注
4.5 面向代码片段的候选扩展词特征抽取
4.5.1 基于上下文的扩展词特征
4.5.2 基于代码片段的扩展词特征
4.5.3 基于代码文件的扩展词特征
4.6 面向代码信息检索的扩展词排序模型构建
4.7 实验结果及分析
4.7.1 实验设置
4.7.2 代码检索整体性能评估
4.7.3 代码检索扩展词选择效果评估
4.7.4 代码检索扩展词标注有效性评估
4.7.5 代码检索扩展词特征有效性评估
4.7.6 代码检索词排序准确率评估
4.7.7 参数选择
4.8 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
【参考文献】:
期刊论文
[1]基于词汇时间分布的微博查询扩展[J]. 韩中元,杨沐昀,孔蕾蕾,齐浩亮,李生. 计算机学报. 2016(10)
[2]基于排序学习的推荐算法研究综述[J]. 黄震华,张佳雯,田春岐,孙圣力,向阳. 软件学报. 2016(03)
[3]基于矩阵分解的伪相关反馈技术[J]. 周栋,刘建勋,张三蓉. 模式识别与人工智能. 2015(08)
[4]基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J]. 黄名选,严小卫,张师超. 软件学报. 2009(07)
本文编号:3158276
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:132 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
主要符号表
1 绪论
1.1 研究背景与意义
1.2 国内外相关工作研究综述
1.2.1 查询理解相关研究
1.2.2 排序模型相关研究
1.2.3 垂直检索相关研究
1.3 本文主要研究思路
1.4 本文组织结构
2 基于伪相关反馈的扩展词排序模型
2.1 引言
2.2 方法整体流程
2.3 候选扩展词选择
2.4 候选扩展词相关性标注
2.5 候选扩展词特征抽取
2.5.1 基于上下文的候选扩展词特征
2.5.2 基于词向量的候选扩展词特征
2.6 候选扩展词排序模型构建
2.7 实验结果及分析
2.7.1 实验设置
2.7.2 整体检索性能评估
2.7.3 候选扩展词选择效果评估
2.7.4 扩展词标注有效性评估
2.7.5 扩展词特征有效性评估
2.7.6 词排序准确率评估
2.7.7 参数选择
2.8 本章小结
3 面向生物医学文献检索的扩展词排序模型
3.1 引言
3.2 方法整体流程
3.3 基于医学主题词表的候选扩展词选择
3.3.1 基于词依赖模型的扩展词加权
3.3.2 基于医学主题词表的扩展词加权
3.3.3 融合词依赖和医学主题词表的候选扩展词加权
3.4 融合查询主题信息的扩展词相关性标注
3.5 面向生物医学文献的扩展词特征抽取
3.5.1 基于上下文的候选扩展词特征
3.5.2 基于领域的候选扩展词特征
3.6 面向生物医学文献检索的扩展词排序模型构建
3.7 实验结果及分析
3.7.1 实验设置
3.7.2 生物医学文献检索整体性能评估
3.7.3 生物医学候选扩展词选择效果评估
3.7.4 生物医学扩展词标注有效性评估
3.7.5 生物医学扩展词特征有效性评估
3.7.6 生物医学扩展词排序准确率评估
3.7.7 参数选择
3.8 本章小结
4 面向代码信息检索的扩展词排序模型
4.1 引言
4.2 方法整体框架
4.3 基于代码片段信息的候选扩展词选择
4.3.1 基于词依赖模型的扩展词加权
4.3.2 候选代码片段加权
4.3.3 基于代码文件的共现频率
4.3.4 面向代码片段的候选扩展词依赖模型
4.4 融合代码信息的扩展词相关性标注
4.5 面向代码片段的候选扩展词特征抽取
4.5.1 基于上下文的扩展词特征
4.5.2 基于代码片段的扩展词特征
4.5.3 基于代码文件的扩展词特征
4.6 面向代码信息检索的扩展词排序模型构建
4.7 实验结果及分析
4.7.1 实验设置
4.7.2 代码检索整体性能评估
4.7.3 代码检索扩展词选择效果评估
4.7.4 代码检索扩展词标注有效性评估
4.7.5 代码检索扩展词特征有效性评估
4.7.6 代码检索词排序准确率评估
4.7.7 参数选择
4.8 本章小结
5 结论与展望
5.1 结论
5.2 创新点
5.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介
【参考文献】:
期刊论文
[1]基于词汇时间分布的微博查询扩展[J]. 韩中元,杨沐昀,孔蕾蕾,齐浩亮,李生. 计算机学报. 2016(10)
[2]基于排序学习的推荐算法研究综述[J]. 黄震华,张佳雯,田春岐,孙圣力,向阳. 软件学报. 2016(03)
[3]基于矩阵分解的伪相关反馈技术[J]. 周栋,刘建勋,张三蓉. 模式识别与人工智能. 2015(08)
[4]基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J]. 黄名选,严小卫,张师超. 软件学报. 2009(07)
本文编号:3158276
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3158276.html