短文本搜索查询扩展相关技术研究
发布时间:2017-03-23 15:06
本文关键词:短文本搜索查询扩展相关技术研究,由笔耕文化传播整理发布。
【摘要】:近年来,微博已经成为一种混合了社交网站的属性及大众媒体的作用的新型网络应用,在热点新闻和各类信息发布中的重要性愈发显现,并深刻影响着社会舆论的走向。面对数以千万计的、实时更新的微博数据,用户需要一种方便快捷的方式获取信息。因此微博短文本语料下的信息检索需求日益突出。查询扩展作为信息检索领域的关键技术,对于查询结果的优化具有非常重要的作用。本文主要内容包括: 提出了一种基于Bayes-LDA模型的微博语料建模方法,该模型能够在保证建模质量的基础上对微博短文本的完整建模;设计了一种基于主题模型的短文本查询扩展算法,其核心是将Bayes-LDA的建模结果应用于特征词的生成与选择、查询结果重排序等操作,从而提高短文本查询的效果;本文的最后介绍了实际项目中的一个海量数据实时处理系统,并详细描述了系统中本人负责设计实现的模块,即基于Map-Reduce思想的分布式流处理框架,以及综合数据库和搜索引擎特性的存储检索方案。
【关键词】:查询扩展 LDA模型 短文本 贝叶斯理论 伪相关反馈
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 引言8-11
- 1.1 课题研究背景及意义8-9
- 1.2 查询扩展的国内外研究现状及相关技术9
- 1.3 论文的研究内容和组织结构9-11
- 第二章 查询扩展关键技术11-28
- 2.1 查询扩展技术的定义11
- 2.2 查询扩展技术的一般步骤11-24
- 2.2.1 数据源预处理12
- 2.2.2 候选扩展特征的生成与排序12-21
- 2.2.3 扩展特征选择21-22
- 2.2.4 查询重写22-24
- 2.3 技术分类24-28
- 2.3.1 语言学方法24-25
- 2.3.2 基于语料库(全局)的分析技术25-26
- 2.3.3 基于查询的(局部)的分析技术26
- 2.3.4 搜索日志分析26-27
- 2.3.5 网络数据27-28
- 第三章 针对微博语料的Bayes-LDA主题建模方法28-45
- 3.1 主题模型对短文本建模的特殊性分析28-30
- 3.1.1 微博语料28-29
- 3.1.2 主题模型在短文本建模问题上的优势29-30
- 3.1.3 主题模型对短文本建模存在的问题30
- 3.2 基于Bayes-LDA的短文本主题建模算法30-36
- 3.2.1 算法基本思想31-32
- 3.2.2 预处理及作者文档聚集32
- 3.2.3 微博语料的LDA模型训练32-35
- 3.2.4 微博主题分布的贝叶斯推导35-36
- 3.3 实验及结果分析36-42
- 3.3.1 实验目的及设计方案36
- 3.3.2 对比模型36-38
- 3.3.3 数据集说明38-39
- 3.3.4 预处理39
- 3.3.5 实验结果及分析39-42
- 3.4 针对微博短文本的主题模型建模方法分析42-45
- 3.4.1 操作层面的扩展42
- 3.4.2 模型层面的扩展42-43
- 3.4.3 Bayes-LDA模型对于查询扩展的实用性分析43-45
- 第四章 基于主题模型的查询扩展算法实现45-53
- 4.1 查询扩展实现框架45-46
- 4.2 核心算法描述46-48
- 4.2.1 主题建模及伪相关文档获取46
- 4.2.2 扩展特征提取46-48
- 4.2.3 查询重排序48
- 4.3 实验设计与结果分析48-53
- 4.3.1 实验目的和方法49
- 4.3.2 实验数据及评价指标49-50
- 4.3.3 实验结果及分析50-53
- 第五章 海量数据实时处理与检索系统53-58
- 5.1 系统需求和目标53-54
- 5.2 流处理框架设计54-55
- 5.3 存储与检索机制设计55-58
- 5.3.1 原文存储策略55-56
- 5.3.2 全文检索策略56-58
- 第六章 总结与展望58-60
- 参考文献60-64
- 致谢64-65
- 攻读学位期间发表的学术论文目录65
【参考文献】
中国期刊全文数据库 前1条
1 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
本文关键词:短文本搜索查询扩展相关技术研究,,由笔耕文化传播整理发布。
本文编号:263970
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/263970.html