自动分类在搜索引擎性能优化中的应用
本文关键词:自动分类在搜索引擎性能优化中的应用,由笔耕文化传播整理发布。
216
情报科学
22卷
即还没有被集聚到任何一类中的网页;松散型网页,它们与已经存在的类中心相似度比较小,尚不具备被聚于某娄的条件;已被聚类的网页,在聚类开始时,所有的阿页都可以看作未聚类网页。用D,表示某篇网页,如果它同时满足以下两个条件,则可以将D.作为类别中心:至少有n1篇潮页,它们与D.的相似系数都超过T1;至少有n2篇网页,,它们与D。的相似系数都超过T2,其中T1≥T2且n1≤n2。T1、T2、n】、n2都是事先给定的参数。聚类的过程如下:在未聚类网页中任取一篇,把它作为聚类中心并对其进行密度测试,测试范围为尚未聚类和松
散型的网页。如果测试失败,即被测试的网页周围
不具有指定数量的网页,则该网页被作为松散型网页。然后在未聚类网页中重新选取网页测试聚类中
心:如果{员4试成功,即被测试网页周围集聚一定预
定值范围内的相似网页,则该网页被作为一个聚类中心,并将其中相似度超过T1的网页视为已聚类
阿页,对于相似度小于T1又大于T2的网页,视为松散型网页,其他网页不改变原有类型。聚类过程一直持续下去到没有未聚类网页为止。最后将剩下
的松散型网页就近聚集到已存在的类别中。3
自动分类在搜索引擎中应用的实例
3.1
wwlib自动归类系统
www(http:
∥www.scit/wlv.ac.uk/ww—
lib/)是伍尔弗汉普顿网络图书馆的简称(WolverhamptonWebI,ibrary),它是使用了自动归类技术的网络信息检索系统。它的主要组成部分
如下:
①蜘蛛:任务是自动从网络上抓取网页。②索引器:它接收蜘蛛抓回来的网页并在本地服务器上储存一个副本,给网页一个唯一的索取母,同时创建一个新的元数据模板,将本地的副本分配给分析器,建造和增加分类器的元数据模板。③分析器:对嵌入网页中的超链接进行分析。如果发现是有效的超链接,就将它的网址传递给索引器并检查它是否属于英国。④分类器:在对索引尉页进行分析的同时给出杜威十进分类法分类号。⑤构建器:分析索引器提供的网页及其元数据,建立索引数据库,确
定索引号和关键词之问的对应关系,使得使用索引
号就可以迅速获得相应的燕键词。⑥搜索器:接受用户的检索提问,在构建器的索引数据库中进行查
询,用得出的索取号获得相应的元数据和本地副本,使用以上的信息得到一个详细的结果,并按相关度排列检索结果。
WWlib中分类器对网页的处理方法如下:首先,对网页进行自动标引,对瞬页中的语词根据它们的词频和网页中出现的位置赋予权重。然后将处理后得到的语词集合与杜威十进分类法分类表中的每一个款目进行比较。每个款目包括它们的分类号、一长串关键词和它们的同义词。从一级类日开始比较,直到出现比较显著的匹配值为止,此时将该网页归人此类。匹配值是在综合考虑到语词的相似度
以及文档的长短等因素之后给出的。
WWlib提供的检索途径有关键词检索、分类号检索、浏览类目下收录的网页等。wwlib也支持布尔逻辑检索和截词检索。检索结果分为两行,第一行为分类号、网页标题,第二行是网页内容摘要。wWIib主要的问题是数据库规模太小,笔者在2003年4月18日查看时其款且只有4874个。但是它的方法对于今后大规模网页的自动分类仍然有一定的借鉴意义。
3.z
Gmuper自动聚类系统
Grouper是orenZamir和orenEt2ioni研制的一个自动聚类系统,它的主要作用是对Husky—
search(这个是他们开发的一个元搜索引擎)返回的结果进行自动聚类。他们在Grouper:A
dynamic
clusterinfinterface
to
websearch
results一文中详
细描述了它的原理和功能,很遗憾的是随着Oren
Zam.r和OrenEtzioni的毕业离校,这两个系统也
停止了对外服务,但是Gmuper还是具有很大的参考价值。
Grouper采用的是一种叫做后缀树聚类(Suffix
Tree
Clustering)的算法(简称STC)。STC是一种
线性时问聚类算法,根据待聚类网页中的相似短语进行聚类。这里所说的短语就是指几个有序的词。此算法可以分为三个步骤。
(1)网页“清洗”。这一步骤可以看作是网页特征的抽取。它对代表网页特征的字符串进行过滤,标明各旬之间的间隔,去掉不是文字的标记符号(如HTML标记、大部分的标点)。
(2)确定基本聚类串。基本聚类串是一些具有共同短语网页的集合。它是在对网页特征进行抽取
的同时使用STC算法进行计算后得到的。对于每~
个基本聚类串,根据它包含的网页特征的数量以及
博泰典藏网btdcw.com包含总结汇报、外语学习、高中教育、高等教育、表格模板、教学研究、出国留学、行业论文、初中教育以及自动分类在搜索引擎性能优化中的应用_图文等内容。
本文共2页12
本文关键词:自动分类在搜索引擎性能优化中的应用,由笔耕文化传播整理发布。
本文编号:103528
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/103528.html