融合主题语义的信息检索模型研究

发布时间:2021-11-26 12:22
  处在信息时代,信息搜索成了人们生活不可缺少的部分,背后支撑的信息检索技术尤为重要。传统的信息检索模型通过匹配文档和查询中词项返回相关文本,其中关键之一在于统计显式的词频特征,但词频规范化通常含有超参数需要优化。基于传统检索模型的词项关联(或依赖)模型以及传统的伪相关反馈模型绝大部也是在统计显式的词项特征,这样容易导致匹配失败。为了解决这个问题,研究者们开始在信息检索中使用主题模型来挖掘文档和词项的隐式语义特征。主题模型生成一种概率分布,很自然地将主题模型引入语言模型框架并取得了一定的成功。但如何将文档和词项的主题语义简单有效地融入到著名的传统检索模型(如概率模型)和伪相关反馈模型尚不明确。针对这些不足,本文分别研究了概率模型BM25中的词频规范化方法、融合词项主题语义的检索模型、融合文档主题语义的重排序检索方法和伪相关反馈技术,主要的研究工作如下:(1)提出了一种基于查询长度词频规范化的概率信息检索模型BM25QL。在概率模型BM25中,规范化词频是一个重要组成部分,由两个参数k1和b控制,通常需要在给定的数据集上优化它们。经验地发现查询长度对词频规范化的影响可以优化检索性能,通过数学... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:108 页

【学位级别】:博士

【部分图文】:

融合主题语义的信息检索模型研究


图3.1知2仏/)函数图像??3.3.3新词频规范化模型:BM25ql??

敏感性,参数,模型,语言模型


Xexp?\\?.??似挪先咖?、\?LQA-BMaS^^00?\\??n?1?nee?A?D-〇6?__?〇■??-*-LDA-SM25qlr£c?\??-?r-?LDA-LM?i>?0.04?LDA-LM??-4--LDA-MA7F?-?-LDA-K?ATF??〇〇5〇?Q.1?Q2.?0.3?QA?05?0.6?0.7?0.8?0.9?1.0?〇〇2〇?0_1?02?0.3?0A?0_5?0.6?0.7?0.8?0.9?1.0??X?X??图4.2参数/l的敏感性??4.5.3与当前水平模型的比较??此外,还对比了两种代表当前水平的方法。在基于BM25模型框架下,Zhao等人[2(),21]提出??的基于BM25的二元交叉词项模型CRTER2与当前主流的概率邻近度模型PPM[18WP?BM25TP[19]??不相上下。在基于主题模型的语言模型框架中,与提出的LDA-LM最为接近的LBDM模型[26]??在以往取得了最好的结果[28】。因此,将所提出的模型分别与CRTER2和LBDM进行直接的对??比,实验对比结果见表4.6。??表4.6比较ToplR模型与当前水平模型CRTER2和LBDM的MAP值??CRTERi?LDA-BM25?LDA-BN^qi^?LDA-BNUSgi^00?LDA-BN^ql1^?LBDM?LDA-LM??AP90?0.2774?0.2982T?0.2999T?0.3005T?0.3009T?0.2944?0.2871??AP88-89?0.2923?0.3105T?0.3112T?0.3108T?0.3109T?0.3094?0.3

模型图,伪相关,主题,反馈系数


?.Zt:,?.、、1?2?、、.??H24、,??:,?(L24?,一??——??*?^?11-?^?r?-■〇-**-*???c-?^??022-?022-?-??02???-?0.2-??、??-??V??0.18-?、,,?0.18-??〇16〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0?°?16〇?0.1?02?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0??a?a??图5.2反馈系数的敏感性??6.5.4与基于主题的伪相关反馈模型比较??表6.3与TopPRF模型对比提升百分比??\f]?TopPRF1371?TopRoc-TS?TopRoc-TD?TopRM3-TS?TopRM3-TD??DISKI?&2??10?+1.92%?+3.05%?fT?+2.11%?ft?+1.91%?+0.71%??20?-0.71%?+1.33%?ft?+3.88%?ft?+2.38%??+1.47%?ft??30?+4.24%?+4.64%?ft?+4.88%?ft?+2.93*/.?+1.55%??50?+3.42%?+6.19%?ft?+6.02%?ft?+3.1?IV.?+1.24%??Average?+2.18%?+3.77%?fT?+4.22%?ft?+2.61%?H?+1.27%??DISK4&5??10?+5.53%?+0.76%?+2.92%?+3.31%?+0.04%??20?+4.63%?+3.07%?+4.88%?ft?+3.88%?+0.29%??30?+4

【参考文献】:
期刊论文
[1]基于图的特征词权重算法及其在文档排序中的应用[J]. 黄云,洪佳明,颜一鸣.  计算机系统应用. 2012(06)
[2]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰.  计算机学报. 2011(08)

硕士论文
[1]LDA在信息检索中的应用研究[D]. 何锦群.天津理工大学 2014



本文编号:3520136

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3520136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7f0a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com