基于标签筛选的文档排序方法研究

发布时间：2017-09-30 18:00

本文关键词：基于标签筛选的文档排序方法研究

【摘要】：在信息技术日新月异的今天,网络信息量也在快速增长,每天通过互联网产生的信息量是难以估计的,要想从这样繁多的信息中找出满意的结果,就必须要借助于搜索引擎,搜索技术的提高是优化搜索引擎性能的关键。那么如何提升搜索技术,使搜索引擎能够快速而准确地找到人们想要的知识,是信息检索领域面临的挑战。本文首先介绍了信息检索领域的研究现状和相关知识,然后进一步引出本文研究重点。本文从标签筛选和查询扩展两方面入手,来提升检索效果。一方面,对文档语义信息的挖掘是文本检索中一个很重要的方法,充分地挖掘文本语义信息对检索效果的提升有很大的帮助。Tag-LDA模型是在LDA模型的基础上改进的一种主题模型,它在LDA模型的“文档-主题”层之间加了一个标签层,通过标签层,能较好地发掘文档的语义信息。然而Tag-LDA的标签层在筛选标签的过程中更多考虑的是词语的词频信息,根据词频来选择文本特征,抽取标签,没有考虑标签对文档的类别区分能力,进而导致筛选的标签不能很好地代表文档；另一方面,现有的查询扩展方法大都是基于人工构建的知识库,但是人工构建的知识库忽略了词语语义信息的动态变化情况,使得这种变化不能在扩展检索中体现。基于以上提出的两个缺点,本文在第三章和第四章分别提出了两个解决的方法。本文第三章提出了一种基于标签筛选的文档排序方法。该方法首先在互信息的基础上引入特征项在文档类别间的分布信息,通过特征项分布的方差来描述特征项的分布均匀程度,然后将特征项的位置信息也考虑进来,最后用引入了特征项分布和位置信息的互信息改进方法对文档集中的文档进行标签选择,筛选出更能代表文档的标签。通过基于互信息改进的Tag-LDA来获得词对文档的语义信息表达,用于文档排序,从而提升检索效果。本文第四章还提出了一种基于动态词语贡献度的文档排序方法。该方法针对现有的查询扩展方法的不足之处,提出了几点改进。首先提出了动态地计算和更新语义知识库中词语语义信息的方法,然后将这种语义信息融入到查询词扩展和词义消歧的过程中,将扩展检索提升到支持动态语义分析的检索上,从而提高检索结果的准确率和查全率。
【关键词】：搜索引擎 主题模型 互信息 查询扩展 词义消歧
【学位授予单位】：华中师范大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP391.1
【目录】：

摘要5-6
ABSTRACT6-10
第一章绪论10-15
1.1 研究背景及其意义10-11
1.2 国内外研究现状11-13
1.3 本文的主要工作13-14
1.4 论文的结构安排14-15
第二章相关理论知识15-27
2.1 文本特征选择15-17
2.1.1 词频TF(Term Frequency)15
2.1.2 互信息15-16
2.1.3 期望交叉熵16
2.1.4 信息增益16-17
2.2 查询扩展17-19
2.2.1 基于叙词表的查询扩展17
2.2.2 基于局部上下文分析(LCA)的查询扩展17-18
2.2.3 语义概念查询扩展18-19
2.3 词义消歧19-22
2.3.1 基于词典的词义消岐19-20
2.3.2 基于统计的词义消岐20-21
2.3.3 基于维基百科的词义消岐方法21-22
2.4 语义知识库22-23
2.5 主题模型23-25
2.5.1 LDA模型简介24-25
2.5.2 Tag-LDA模型25
2.6 本章小结25-27
第三章基于标签筛选的文档排序方法27-36
3.1 研究问题引出27-28
3.2 互信息的改进方法28-30
3.2.1 引入特征项分布的互信息方法28-29
3.2.2 引入特征项位置信息的互信息方法29-30
3.3 基于标签筛选的文档排序方法30-31
3.3.1 基于互信息改进方法的标签筛选30-31
3.3.2 基于标签筛选的文档排序方法31
3.3.3 基于标签筛选的文档排序方法描述31
3.4 基于标签筛选的文档排序方法系统框架31-32
3.5 实验设计及结果分析32-35
3.5.1 实验语料及对比系统32-33
3.5.2 实验流程33
3.5.3 筛选标签结果对比与分析33
3.5.4 实验结果33-35
3.6 本章小结35-36
第四章基于动态词语贡献度的文档排序方法36-47
4.1 问题引出36-37
4.2 基于动态词语贡献度的检索系统框架37-43
4.2.1 查询信息接收37-38
4.2.2 查询语句语义处理38-41
4.2.3 词语贡献度动态计算41-43
4.2.4 文本检索43
4.3 基于动态词语贡献度的文档排序方法43-44
4.3.1 相关公式43-44
4.3.2 算法描述44
4.4 实验设计及结果分析44-46
4.4.1 实验流程44
4.4.2 实验结果44-46
4.5 本章小结46-47
第五章总结及进一步工作47-49
5.1 总结47
5.2 进一步工作47-49
参考文献49-53
攻读硕士学位期间公开发表的成果与参加的科研项目53-54
致谢54-55

【参考文献】

中国期刊全文数据库前1条

1 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期

，

本文编号：949582

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/949582.html

上一篇：网站优化对网络信息的影响
下一篇：高校图书馆信息化管理的实现及读者服务思路解析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|