基于词重要性的信息检索图模型
发布时间:2017-08-21 20:42
本文关键词:基于词重要性的信息检索图模型
更多相关文章: 词项权重计算 检索模型 词项图 词项重要性 TI-IDF
【摘要】:随着移动互联网技术的发展,无处不在的搜索已经成为人类日常生活的重要组成部分。互联网上的信息量在过去十几年中呈现出爆炸式的增长,如何从海量信息资源中找出与用户给定需求(查询)最为相关的信息成为当前搜索引擎面临的主要难题,这就需要搜索引擎提供有效的信息检索模型。因此,找出更加有效的检索模型是信息检索研究工作中一项长期的挑战。在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档以建立检索模型的方法中大多基于词项独立性假设,仅使用词项频率(Term Frequency,TF)和词项逆文档频率(Inverse Document Frequency,IDF)的函数来计算词项在文档中的权重,并未考虑词项之间的依赖关系。本文采用基于词项图(Graph-of-word)的文档表示形式以捕获词项间的依赖关系,采用马尔科夫链计算方法度量词项在文档中的重要性,提出了一种新的基于词重要性(Term Importance,TI)的信息检索图模型TI-IDF。本文的主要创新工作包括:(1)新的文档词项图表示形式;通过对文档进行分句,以句子为单位构建每篇文档的词项图(无向有权图)。在文档词项图中,以顶点表示文档中出现的索引词项,任意两个词项之间的无向边表示这两个词项在文档的某一句子中共现,无向边的权重则表示两个词项在该文档中共现的句子个数。(2)词项重要性(TI)度量;根据构建的文档词项图,得到该文档内词项间的共现矩阵,进而计算词项间的概率转移矩阵,并通过采用马尔科夫链计算方法确定词项在文档中的重要性。(3)基于词重要性的信息检索图模型TI-IDF。将词项在文档中的重要性(TI)替代传统基于词袋形式表示文档的检索模型中的词项频率(TF),并结合TF?IDF词项权重计算框架以及已有的TF归一化方法,通过对比实验确定了本文提出的检索图模型TI-IDF的词项权重计算方案。我们在标准数据集上进行了实验,结果表明,与传统的检索模型相比,本文提出的检索图模型TI-IDF具有更好的鲁棒性,它的检索结果均优于BM25模型,且在大多数情况下优于BM25的扩展模型、TW-IDF等模型。
【关键词】:词项权重计算 检索模型 词项图 词项重要性 TI-IDF
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要3-4
- Abstract4-8
- 1 引言8-14
- 1.1 研究背景及研究意义8-9
- 1.2 相关工作9-12
- 1.3 本文主要工作12
- 1.4 本文内容组织12-14
- 2 信息检索概述14-22
- 2.1 信息检索基本流程14
- 2.2 信息检索系统14-16
- 2.3 信息检索经典模型16-20
- 2.3.1 布尔模型16
- 2.3.2 向量空间模型16-17
- 2.3.3 概率模型17-19
- 2.3.4 语言模型19-20
- 2.4 检索系统评测20-21
- 2.4.1 检索系统评价指标20-21
- 2.4.2 信息检索评测活动21
- 2.5 本章小节21-22
- 3 词项权重计算方法及文档的图形表示22-30
- 3.1 词项权重计算方法22-24
- 3.1.1 Piv和BM2522-23
- 3.1.2 TF归一化方法23-24
- 3.2 文档的图形表示24-29
- 3.2.1 TextRank与TextLink25-26
- 3.2.2 PosRank与PosLink26-28
- 3.2.3 TW-IDF28-29
- 3.3 本章小节29-30
- 4 基于词重要性的信息检索图模型30-34
- 4.1 词项图构建30-31
- 4.1.1 文档词项图30-31
- 4.1.2 词项图构建过程31
- 4.2 词项重要性度量31-33
- 4.3 TI-IDF检索图模型构建33
- 4.4 本章小节33-34
- 5 实验34-42
- 5.1 实验准备34-36
- 5.1.1 实验数据集34-35
- 5.1.2 数据集预处理35-36
- 5.2 对比实验36-37
- 5.3 对比实验结果及分析37-41
- 5.3.1 TF与TI,,TF-IDF与TI-IDF37
- 5.3.2 已有检索模型实验结果37-38
- 5.3.3 TI-IDF模型的词项权重计算方法对比38-40
- 5.3.4 TI-IDF对比实验结果40-41
- 5.4 本章小结41-42
- 6 总结与展望42-44
- 6.1 总结42
- 6.2 研究展望42-44
- 参考文献44-50
- 致谢50-51
- 在读研期间公开发表论文(著)及科研情况51
【相似文献】
中国期刊全文数据库 前2条
1 吴直雄;“’”运用混乱亟待规范[J];中国出版;1996年12期
2 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 许锦云;;普通逻辑中的概念应改为词项[A];逻辑今探——中国逻辑学会第五次代表大会暨学术讨论会论文集[C];1996年
2 李永铭;;普通逻辑三问[A];1997年逻辑研究专辑[C];1997年
中国重要报纸全文数据库 前1条
1 杨锡彭;汉语中的韵律词[N];语言文字周报;2013年
中国博士学位论文全文数据库 前3条
1 成军;论词项的概念指向性[D];西南大学;2010年
2 吴丽英;词项装配与合并的最简研究[D];上海外国语大学;2008年
3 李翠英;搭配的动态观及其应用研究[D];苏州大学;2011年
中国硕士学位论文全文数据库 前4条
1 陈博影;从词项逻辑的角度判断“张之江命题”的真伪[D];福建师范大学;2015年
2 洪欢;基于词重要性的信息检索图模型[D];江西师范大学;2015年
3 尹浩传;基于词项依赖信息的中文信息检索方法研究[D];华中师范大学;2014年
4 罗杨;英汉身体部位词项语义引申的认知实证研究[D];四川外语学院;2010年
本文编号:715022
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/715022.html