一种基于主题和分众分类的信息检索优化方法
发布时间:2019-08-05 07:37
【摘要】:本文针对目前搜索引擎存在的检索结果缺乏组织导致检准率不高的问题,提出一种基于主题和分众分类的信息检索优化方法。首先对用户检索主题进行获取和表达,然后以社会标签为聚类项,采用向量空间模型实现基于分众分类的文档主题聚类,并将检索结果按相似度和标签"受欢迎度"复合排序,达到提高检索准确率和优化检索的效果。
【图文】:
通过对分众分类形成的标签(Tags)进行社群聚类,给网络文档加上主题标记并自动聚类。检索优化方案如错误,未找到引用源,如图1所示。具体的实现技术及方法在后两节中详述。图1 基于主题和分众分类的检索优化示意图2 用户检索主题获取与表达为了弥补关键词检索的不足,必须在检索中引入检索主题因素,过滤不相关主题内容。为了与通常意义上的主题相区别,本文对用户检索主题定义如下:定义1 用户检索主题:用户检索主题T是一个表达用户信息需求倾向的语义标签序列,设V1为用户使用的关键词记录集合,V2为网络文档语义标签集,则:T={t|t∈V1∩V2, P(ti)>P(tj)}(0<i<j<n)(1)P(t)为主题词t在检索中被用户使用的频率
获取社会书签集之后,经过兴趣修正步骤,去除重复标签和无意义语词(如时间标签等),加入至V1后再求取T序列。整个主题获取与表达的处理流程如图2所示。3 基于分众分类的文档主题聚类文档聚类最常用的就是向量空间模型(SVM)。SVM采用词频统计等方法提取每篇文档的关键词,将文档表示为由这些关键词组成的词条T (T1, T2,…, Tn) (n为关键词数量)。通过TF/IDF加权算出各个关键词的权重,—109— ·情报理论与实践·
【作者单位】: 解放军南京政治学院上海分院军事信息管理系;
【分类号】:G354
【图文】:
通过对分众分类形成的标签(Tags)进行社群聚类,给网络文档加上主题标记并自动聚类。检索优化方案如错误,未找到引用源,如图1所示。具体的实现技术及方法在后两节中详述。图1 基于主题和分众分类的检索优化示意图2 用户检索主题获取与表达为了弥补关键词检索的不足,必须在检索中引入检索主题因素,过滤不相关主题内容。为了与通常意义上的主题相区别,本文对用户检索主题定义如下:定义1 用户检索主题:用户检索主题T是一个表达用户信息需求倾向的语义标签序列,设V1为用户使用的关键词记录集合,V2为网络文档语义标签集,则:T={t|t∈V1∩V2, P(ti)>P(tj)}(0<i<j<n)(1)P(t)为主题词t在检索中被用户使用的频率
获取社会书签集之后,经过兴趣修正步骤,去除重复标签和无意义语词(如时间标签等),加入至V1后再求取T序列。整个主题获取与表达的处理流程如图2所示。3 基于分众分类的文档主题聚类文档聚类最常用的就是向量空间模型(SVM)。SVM采用词频统计等方法提取每篇文档的关键词,将文档表示为由这些关键词组成的词条T (T1, T2,…, Tn) (n为关键词数量)。通过TF/IDF加权算出各个关键词的权重,—109— ·情报理论与实践·
【作者单位】: 解放军南京政治学院上海分院军事信息管理系;
【分类号】:G354
【参考文献】
相关期刊论文 前4条
1 李超;王兰成;;应用领域本体的Web信息知识集成研究[J];情报科学;2007年03期
2 张娜;张玉花;李宝敏;;基于本体实现有效语义智能检索系统研究[J];情报杂志;2008年03期
3 朱婷;;情报学中的序性结构初探——以Web2.0下的分众分类为例[J];图书情报知识;2008年03期
4 周荣庭;郑彬;;分众分类:网络时代的新型信息分类法[J];现代图书情报技术;2006年03期
相关硕士学位论文 前2条
1 滕岩;基于领域知识的智能信息检索研究[D];山东大学;2006年
2 贾保先;基于Ontology的智能信息检索关键技术研究[D];中国海洋大学;2007年
【共引文献】
相关期刊论文 前10条
1 李顺龙;;国内图书馆界个性化服务研究现状与趋势[J];重庆图情研究;2007年04期
2 涂瑞;吴s,
本文编号:2523003
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2523003.html