搜索引擎浏览广告赚钱_搜索引擎中的聚类浏览技术
本文关键词:搜索引擎中的聚类浏览技术,,由笔耕文化传播整理发布。
搜索引擎中的聚类浏览技术
3期李红梅等:搜索引擎中的聚类浏览技术
57
查询意图,几乎一半的查询结果是与用户无关的[1],而对搜索引擎日志的分析则表明多数用户只愿意浏览10~30个查询结果[2],那么排列在后面的相关信息就很难被发现。另外,大多数查询趋向于短查询[3],由于查询词的多义性,使得查询结果往往包含多个主题内容,用户需要仔细浏览文档列表,排除不相关的内容,查找自己感兴趣的信息。因此,为了满足日益增长的网络用户对查询质量的要求,必须提高搜索引擎查询结果的可浏览性。
一种方法是采用Web文档分类技术[4~6],一般需要预先对分类器进行训练来建立整个Web分层类目文献[,然后将搜索结果映射到这些分层组织的类目中。这种分类方法过于复杂,查找新的主题;存在于分类目录中,是十分有效[7,8]。
,进行自动、行聚类,创建类目体系,使同类中文档内容的相似度尽可能地大,而类与类之间文档的相似度尽可能地小,并对每个类目用相应的主题词加以描述。然后把类目呈现给用户,使用户能在更高的主题层次上来查看搜索引擎返回的结果,方便地查找到感兴趣的信息,从而可大大缩小用户所需浏览的结果数量,缩短用户查询所需要的时间,搜索结果的聚类浏览技术已经成为研究的一个热点。
息,因此应该避免把每个文档只聚类到单独的一个类目,可以叠加聚类。
(4)快速性:聚类算法应该能够快速聚类,将查询结果显示给用户前不能有很大的延迟。
(5)Snippets聚类:由于搜索结果处理的实时性,大多数用户不愿等待系统下载原始文档形成聚类,因此,对搜索结果的聚类是基于短文文摘的,即snippets聚类,这就要求根据搜索引擎返回的标题和文摘(Snippets)也应形成高质量的聚类。标之一,搜索引擎的聚类浏览技术实质上是为了方便用户的浏览,将聚类技术用于信息检索结果的可视化输出。聚类算法和聚类标识是聚类浏览技术的两个重要组成部分。聚类算法决定了搜索结果的组织结构和运行效率,而聚类标识则是帮助用户迅速确认生成的文档类目相关与否的重要信息[12],是提高可浏览性的基本体现。
聚类浏览技术按照聚类标识分为关键词标识(SingleWords)和短语标识(Phrases),,比词表达的信息更加丰富。根据聚类算法可将聚类(类()。扁平聚类只对数据进行一层的划分,将产生的类目组织成树形结构以便于用户浏览2 聚类浏览技术的基本要求
大多数传统的聚类算法不能直接应用于搜索结果的在线聚类,其实用性对聚类算法提出了几个基本要求[9,10]:
(1)相关性:该算法应该能够聚类相同/相似的文档,把与用户查询条件相关的文档与不相关的文档分开。
(2)概括性:用户通过快速浏览就能找到自己感兴趣的内容,因此聚类算法需要对每个类目提供简明准确的概括描述,。标识的质量取决于好的结构性(即文本符合句法和语法规范)、描述能力(即能够很好地描述聚类中所包含的内容)和区分能力(即能够很好地将所描述的类目与其他类目区分开来)[11]。
(3)重叠性:因为文档会涉及多个主题的信
4 聚类浏览技术的主要算法
聚类和标识是Web聚类浏览系统的两个基本组成部分,但目前提出的方法各有侧重,成聚类另外一些方法则将对信息的聚类作为最重要的步骤,。以下将讨论聚类浏览技术中常用的聚类算法及改进方法。4.1 传统聚类算法的应用
文献中有关文本聚类的算法很多。层次聚合算
本文关键词:搜索引擎中的聚类浏览技术,由笔耕文化传播整理发布。
本文编号:142627
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142627.html