基于特征抽取和转换方法的全文检索研究
发布时间:2017-12-12 01:14
本文关键词:基于特征抽取和转换方法的全文检索研究
更多相关文章: 信息检索 主题模型 云模型 特征项 概念标签 相关度
【摘要】:在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械地匹配仅仅包含有指定关键词的文档来获得相关文档,这种方式常常会带来语义理解上的错误,越来越不能满足现状用户的需求和科学研究的需要,于是语义分析和挖掘显现了在检索中的重要性。 由于汉语语言的二义性和相关性,在一定程度上造成了不确定性和模糊性,潜在语义分析的方法被广泛用于信息检索领域,它的核心是针对词语和文档进行分析,建立一个矩阵,并作加权转换,用于计算的加权函数又直接影响潜在语义分析的结果。这样建立起的词与词之间的语义关系矩阵,在很大程度上消除了由于词语语义的多样性和随意性导致的对检索结果产生的偏差。然而这种方法依然忽略了语言的模糊性和不确定性,所以将云模型理论引入到信息检索研究中,挖掘出一些潜在的语义信息。 LDA模型,被用于挖掘潜在的主题结构,这些主题上分布的词是在语义上相关的。但是主题在语义上具有不确定性。本文在LDA模型的基础上引进云模型理论,利用云模型均值和方差的关系,在抽样时标注了某个主题,就为主题添加主题关系调节因子,建立一个新的特征选择系统。于是新的方法能够抽取出文本的特征集,特征集对于文本具有高的贡献度。新获得的特征集有更少但能最大程度上表示文本的词语。 特征词语有不同表示形式的语义信息,两种语义空间下的信息不能直接融合。本文提出了一种特征转换机制,在云空间上对两种语义信息进行转换使其具有一致性,再在一致空间上进行融合,并对标签主题模型进行抽样选择,实现两种语义信息的融合,然后进行查询扩展,运用到检索中,提高检索效果。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【参考文献】
中国期刊全文数据库 前10条
1 秦昆;李德毅;许凯;;基于云模型的图像分割方法研究[J];测绘信息与工程;2006年05期
2 李德毅,刘常昱;论正态云模型的普适性[J];中国工程科学;2004年08期
3 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
4 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
5 俞辉;;基于PLSA模型的Web用户聚类算法研究[J];计算机工程与科学;2008年07期
6 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期
7 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
8 康海燕,李彦芳,林培光,樊孝忠;信息检索策略性能的云模型评价方法[J];中文信息学报;2005年01期
9 王灿辉;张敏;马少平;;自然语言处理在信息检索中的应用综述[J];中文信息学报;2007年02期
10 代劲;何中市;胡峰;;基于云模型的文本特征自动提取算法[J];中南大学学报(自然科学版);2011年03期
,本文编号:1280619
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1280619.html