基于文档内位置关系的检索方法研究
发布时间:2021-06-03 22:03
互联网的高速发展带来了信息的爆炸式增长。如何从缛繁杂乱的信息中筛选出所需信息,是一个迫切需要解决的问题。在现有的信息检索模型中,对文档和候选扩展词的评估主要依赖于词项在文档内的词频、逆文档频率以及文档长度等信息,却忽略了词项在文档内的位置信息对于检索性能的影响。近年来的研究表明利用词项的位置关系是提高检索性能的有效方法,虽然这些模型已取得了良好的效果,但如何捕获词项的位置信息以及对位置影响力的度量仍有提升的空间。因此,本文就基于文档内位置关系的信息检索方法进行研究,主要内容包括以下三个方面:第一,本文提出一种基于文档内位置关系的概率检索方法,BM25-LR。该研究背后的客观事实为,在大多数文章中,作者通常会在文档内的特定位置,例如文档的开头或结尾,总结观点并概括文章的中心内容,因此这些位置的词项与文档主题的相关度更高、更加重要。本文采用核函数的方法对词项在文档内的不同位置进行建模,对位于文档开头和结尾部分的词项赋予更高的位置权重。进而,将该位置特征融入到经典的BM25概率模型中,对查询词进行权重优化,帮助获取更有可能与查询相关的文档。在五种TREC数据集上,对本文提出的BM25-LR概...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图1.2本文的组织结构??如上图所示,本文主要研宄了基于文档内位置信息的检索方法,共分为六章
自动局部分析的方法,实现相关反馈的人工标注过程自??动化,获得检索性能的提升⑴-151。通常,伪相关反馈方法的过程如下:??1.用户输入原始查询;??1系统进行首轮检索并返回查询结果;??3.假设首轮检索返回的前N篇文档是相关文档,系统自动将该N篇文档标记??为相关文档,其余文档标记为不相关文档:??4.在此假设基础上,系统根据反馈文档,通过一定的策略加入一些相关的扩??展词,与原始查询结合构造出新查询;??5.利用优化后的新查询进行第二轮检索,返回最终查询结果。??上述过程如图2.1所示。??开始???r??原始查询???工??首轮检索??工??检索结果?组合丄新查询一?二轮检索一?最终检索结果??i????1?1? ̄ ̄ ̄p??查询扩展?结束??丁??新扩展词???图2.1伪相关反馈流程图??早在20世纪60年代初,国内外专家学者就展开了伪相关反馈技术相关的工作??8??
?硕士学位论文??MASTER’S?THESIS.??的方法对词项位置信息进行建模[32,39,4()1,核函数也由于其非负性、对称性、连续性??和关于对称轴的单调递减性,使其能够较好地模拟词的位置影响力的分布情况。本??节将首先介绍几种位置检索模型中较常见的核函数,然后重点介绍核函数的方法在??以往基于位置信息的检索模型中的应用。??2.4.1核函数??以下本节将列出三种在位置检索模型中较为常见的核函数:??(1)高斯核函数(Gaussiankernel)??-u2??Gaussian(u)?=?e2°'?公式(2.1)??(2)圆核函数(Circle?kernel)??Circle(u)?-?jl-?一?公式(2.2)??V??(3)余弦核函数(Cosine?kernel)??,?f?U?X?丌\??1?+?cos????Cosirje(u)=??———?公式(2.3)??其中,W为给定词之间的距离,o■为控制核函数分布规模的调整参数,图2.2??中展示了几种不同核函数的图像。??Circle?kernel??Gaussian?kernel??——Epanechnikov?kernel??0.8??Ouartic?kernel??Cosine?kernel??0.6??0?4??0.2??-??-1?〇?1?’?a??图2.2几种不同核函数的图形??从图中可以看出,几种核函数的变化趋势十分相似,均为中间高两端低的凸型??曲线。图中除了高斯核函数以外,其余核函数的定义域均在[_2,2]之间,值域为[〇,]]??之间。??11??
本文编号:3211334
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图1.2本文的组织结构??如上图所示,本文主要研宄了基于文档内位置信息的检索方法,共分为六章
自动局部分析的方法,实现相关反馈的人工标注过程自??动化,获得检索性能的提升⑴-151。通常,伪相关反馈方法的过程如下:??1.用户输入原始查询;??1系统进行首轮检索并返回查询结果;??3.假设首轮检索返回的前N篇文档是相关文档,系统自动将该N篇文档标记??为相关文档,其余文档标记为不相关文档:??4.在此假设基础上,系统根据反馈文档,通过一定的策略加入一些相关的扩??展词,与原始查询结合构造出新查询;??5.利用优化后的新查询进行第二轮检索,返回最终查询结果。??上述过程如图2.1所示。??开始???r??原始查询???工??首轮检索??工??检索结果?组合丄新查询一?二轮检索一?最终检索结果??i????1?1? ̄ ̄ ̄p??查询扩展?结束??丁??新扩展词???图2.1伪相关反馈流程图??早在20世纪60年代初,国内外专家学者就展开了伪相关反馈技术相关的工作??8??
?硕士学位论文??MASTER’S?THESIS.??的方法对词项位置信息进行建模[32,39,4()1,核函数也由于其非负性、对称性、连续性??和关于对称轴的单调递减性,使其能够较好地模拟词的位置影响力的分布情况。本??节将首先介绍几种位置检索模型中较常见的核函数,然后重点介绍核函数的方法在??以往基于位置信息的检索模型中的应用。??2.4.1核函数??以下本节将列出三种在位置检索模型中较为常见的核函数:??(1)高斯核函数(Gaussiankernel)??-u2??Gaussian(u)?=?e2°'?公式(2.1)??(2)圆核函数(Circle?kernel)??Circle(u)?-?jl-?一?公式(2.2)??V??(3)余弦核函数(Cosine?kernel)??,?f?U?X?丌\??1?+?cos????Cosirje(u)=??———?公式(2.3)??其中,W为给定词之间的距离,o■为控制核函数分布规模的调整参数,图2.2??中展示了几种不同核函数的图像。??Circle?kernel??Gaussian?kernel??——Epanechnikov?kernel??0.8??Ouartic?kernel??Cosine?kernel??0.6??0?4??0.2??-??-1?〇?1?’?a??图2.2几种不同核函数的图形??从图中可以看出,几种核函数的变化趋势十分相似,均为中间高两端低的凸型??曲线。图中除了高斯核函数以外,其余核函数的定义域均在[_2,2]之间,值域为[〇,]]??之间。??11??
本文编号:3211334
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3211334.html
最近更新
教材专著