基于本体的垂直搜索引擎分类索引模型设计
发布时间:2021-04-13 06:21
为了改善基于关键词的垂直搜索引擎查全率低和相关排序效果不佳的缺点,提出了基于本体的垂直搜索引擎分类索引模型。设计了一种基于领域本体的分类体系,实现了基于该分类体系的细粒度文本分类,并将分类信息写入索引,增加了索引的语义信息。在lucene原有索引结构的基础上,重新设计了索引的逻辑结构和物理结构,使类别信息和关键词信息合理融合,形成分类索引。最后提出针对该索引的检索算法,并举例验证了该模型的有效性。
【文章来源】:计算机工程与设计. 2010,31(23)北大核心CSCD
【文章页数】:6 页
【部分图文】:
三级类目
步骤 9 if(count< )步骤 1~步骤 8;else合并索引到索引数据库中;End3 检索分类索引数据库在经过索引生成模块的操作后,类别信息和其它需要被索引的信息已经写入分类索引数据库。一种好的索引机制需要与之匹配的检索算法相结合才能达到事半功倍的效果。本文设计了一种检索算法,针对分类索引进行检索,通过该检索算法来验证分类索引数据库的性能。检索过程如图 5 所示。物理结构
可用性较差;第 2 种方式真正实现了分类索引,但是在对索引进行更新操作时,性能不佳。本文在综合考虑索引的膨胀率、生成和更新效率和检索效率的基础上提出了如图 4 所示的物理结构,它在lucene物理结构中引入了用于专门存储类别信息的文件.cat;同时将逻辑结构中涉及到的对照关系以类别信息、关键词信息和文档信息相结合的方式融合在多个物理文件中形成一个统一整体,从而达到利于更新和检索的目的。图 4 给出了物理文件的存储内容以及彼此之间的关系。. fnm 文件主要存储域名的相关信息,本文中域定义与 lucene中的域定义相同,都包括域名和域值两部分,每个文档对象包含一个或多个不同命名的域;.dic文件主要存储域值的相关信息,如标题、内容等;.dfc文件是物理文件中充当对照关系的文件,包括指向 .dtf 文件(文档频率文件)和 .cat 文件(类别文件)的指针;.dtp 文件存储每个关键词在文档中的位置。除了图中所画的文件外,物理结构的设计中还包括记录删除记录的文件 .del 和为了加快访问而建立起来的文件。上述物理结构的设计把文档和类别信息充分的关联起来
【参考文献】:
期刊论文
[1]基于本体的文本分类方法[J]. 张颖,王文杰,史忠植. 计算机仿真. 2009(05)
[2]本体论研究综述[J]. 李善平,尹奇韡,胡玉杰,郭鸣,付相君. 计算机研究与发展. 2004(07)
[3]基于概念的Web信息检索[J]. 袁占亭,张爱民,张秋余. 计算机工程与应用. 2003(36)
硕士论文
[1]化工专业搜索引擎索引技术的研究与实现[D]. 谭旻.北京化工大学 2008
[2]专业搜索引擎的数据存储研究[D]. 陈小峰.南京师范大学 2007
本文编号:3134788
【文章来源】:计算机工程与设计. 2010,31(23)北大核心CSCD
【文章页数】:6 页
【部分图文】:
三级类目
步骤 9 if(count< )步骤 1~步骤 8;else合并索引到索引数据库中;End3 检索分类索引数据库在经过索引生成模块的操作后,类别信息和其它需要被索引的信息已经写入分类索引数据库。一种好的索引机制需要与之匹配的检索算法相结合才能达到事半功倍的效果。本文设计了一种检索算法,针对分类索引进行检索,通过该检索算法来验证分类索引数据库的性能。检索过程如图 5 所示。物理结构
可用性较差;第 2 种方式真正实现了分类索引,但是在对索引进行更新操作时,性能不佳。本文在综合考虑索引的膨胀率、生成和更新效率和检索效率的基础上提出了如图 4 所示的物理结构,它在lucene物理结构中引入了用于专门存储类别信息的文件.cat;同时将逻辑结构中涉及到的对照关系以类别信息、关键词信息和文档信息相结合的方式融合在多个物理文件中形成一个统一整体,从而达到利于更新和检索的目的。图 4 给出了物理文件的存储内容以及彼此之间的关系。. fnm 文件主要存储域名的相关信息,本文中域定义与 lucene中的域定义相同,都包括域名和域值两部分,每个文档对象包含一个或多个不同命名的域;.dic文件主要存储域值的相关信息,如标题、内容等;.dfc文件是物理文件中充当对照关系的文件,包括指向 .dtf 文件(文档频率文件)和 .cat 文件(类别文件)的指针;.dtp 文件存储每个关键词在文档中的位置。除了图中所画的文件外,物理结构的设计中还包括记录删除记录的文件 .del 和为了加快访问而建立起来的文件。上述物理结构的设计把文档和类别信息充分的关联起来
【参考文献】:
期刊论文
[1]基于本体的文本分类方法[J]. 张颖,王文杰,史忠植. 计算机仿真. 2009(05)
[2]本体论研究综述[J]. 李善平,尹奇韡,胡玉杰,郭鸣,付相君. 计算机研究与发展. 2004(07)
[3]基于概念的Web信息检索[J]. 袁占亭,张爱民,张秋余. 计算机工程与应用. 2003(36)
硕士论文
[1]化工专业搜索引擎索引技术的研究与实现[D]. 谭旻.北京化工大学 2008
[2]专业搜索引擎的数据存储研究[D]. 陈小峰.南京师范大学 2007
本文编号:3134788
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3134788.html