微博短文本检索关键技术研究
发布时间:2021-05-20 00:42
微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究:1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 本文的研究背景
1.2 本文研究目的和意义
1.3 相关研究综述
1.3.1 信息检索模型
1.3.2 微博检索
1.3.3 Lemur 工具
1.4 本文的内容组织和结构
第2章 实时性语言模型
2.1 语言模型相关工作
2.1.1 语言模型
2.1.2 平滑方法
2.2 相关文档的时间分布分析
2.2.1 两种考虑检索结果实时性的方法
2.2.2 实时性在微博检索中的真实情况
2.3 基于热点时间的语言模型
2.3.1 热点时间
2.3.2 基于热点时间的语言模型
2.4 实验数据和评价指标
2.4.1 实验数据
2.4.2 评测指标
2.5 实验结果及分析
2.6 本章小结
第3章 融入时间信息的查询建模
3.1 基于实时性的查询扩展
3.1.1 微博排序中利用文档平均“年龄”的可行性
3.1.2 融入实时性的查询扩展
3.2 针对多波峰主题相关的查询扩展
3.3 融合实时性与多波峰主题相关的查询扩展
3.4 实验结果与分析
3.4.1 实验配置
3.4.2 实验结果与分析
3.5 本章小结
第4章 基于参考文档模型的微博文本检索
4.1 微博短文本检索的关键问题分析
4.1.1 当前反馈技术存在的问题
4.1.2 微博短文本在文档建模中潜在的困难
4.2 参考文档模型
4.3 基于概率空间的参考文档模型
4.3.1 基于伪反馈的文档建模
4.3.2 相关性模型
4.4 实验结果与分析
4.4.1 实验设计
4.4.2 基于待检索文档集的参考文档模型性能
4.4.3 基于 URL 资源的参考文档模型性能
4.4.4 选用不同参考文档集的性能比较
4.4.5 文档增益对检索性能的影响分析
4.5 本章小结
第5章 基于排序学习模型的微博文本检索
5.1 引言
5.2 基于 Ranking SVM 的微博排序学习模型
5.3 排序学习模型的特征抽取
5.3.1 特征类别
5.3.2 特征集合构造
5.4 实验结果及分析
5.4.1 实验工具与数据
5.4.2 使用全部的特征
5.4.3 仅使用单个特征
5.4.4 按特征类别
5.4.5 leave-one-out 特征实验结果
5.4.6 文本相似度特征与其他类别单一特征组合
5.4.7 利用贪心算法选最优特征集
5.5 本章小结
结论
附录一 预处理后的结构化 Tweet 样例
附录二 本文实验中的微博查询样例
附录三 TREC 2012 微博实时检索评测参赛队伍
参考文献
攻读学位期间发表的学术论文
致谢
本文编号:3196745
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 本文的研究背景
1.2 本文研究目的和意义
1.3 相关研究综述
1.3.1 信息检索模型
1.3.2 微博检索
1.3.3 Lemur 工具
1.4 本文的内容组织和结构
第2章 实时性语言模型
2.1 语言模型相关工作
2.1.1 语言模型
2.1.2 平滑方法
2.2 相关文档的时间分布分析
2.2.1 两种考虑检索结果实时性的方法
2.2.2 实时性在微博检索中的真实情况
2.3 基于热点时间的语言模型
2.3.1 热点时间
2.3.2 基于热点时间的语言模型
2.4 实验数据和评价指标
2.4.1 实验数据
2.4.2 评测指标
2.5 实验结果及分析
2.6 本章小结
第3章 融入时间信息的查询建模
3.1 基于实时性的查询扩展
3.1.1 微博排序中利用文档平均“年龄”的可行性
3.1.2 融入实时性的查询扩展
3.2 针对多波峰主题相关的查询扩展
3.3 融合实时性与多波峰主题相关的查询扩展
3.4 实验结果与分析
3.4.1 实验配置
3.4.2 实验结果与分析
3.5 本章小结
第4章 基于参考文档模型的微博文本检索
4.1 微博短文本检索的关键问题分析
4.1.1 当前反馈技术存在的问题
4.1.2 微博短文本在文档建模中潜在的困难
4.2 参考文档模型
4.3 基于概率空间的参考文档模型
4.3.1 基于伪反馈的文档建模
4.3.2 相关性模型
4.4 实验结果与分析
4.4.1 实验设计
4.4.2 基于待检索文档集的参考文档模型性能
4.4.3 基于 URL 资源的参考文档模型性能
4.4.4 选用不同参考文档集的性能比较
4.4.5 文档增益对检索性能的影响分析
4.5 本章小结
第5章 基于排序学习模型的微博文本检索
5.1 引言
5.2 基于 Ranking SVM 的微博排序学习模型
5.3 排序学习模型的特征抽取
5.3.1 特征类别
5.3.2 特征集合构造
5.4 实验结果及分析
5.4.1 实验工具与数据
5.4.2 使用全部的特征
5.4.3 仅使用单个特征
5.4.4 按特征类别
5.4.5 leave-one-out 特征实验结果
5.4.6 文本相似度特征与其他类别单一特征组合
5.4.7 利用贪心算法选最优特征集
5.5 本章小结
结论
附录一 预处理后的结构化 Tweet 样例
附录二 本文实验中的微博查询样例
附录三 TREC 2012 微博实时检索评测参赛队伍
参考文献
攻读学位期间发表的学术论文
致谢
本文编号:3196745
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3196745.html