搜索引擎去重算法的研究与实现
本文关键词:搜索引擎去重算法的研究与实现,由笔耕文化传播整理发布。
搜索引擎
搜索引擎去重算法的研究与实现
一.什么是无效信息
搜索引擎作为一项网络应用,已经成为人们查询信息的重要工具之一,它可以使人们从Intemet大量纷杂的信息中,找到与主题相关的信息,为人们查询信息提供了方便。但是由于中文自身的特点,目前的搜索引擎存在着很多的问题,它只解决了信息查询的问题,而从信息资源覆盖面、检索精度、信息的输出方式等许多方面来看,检索结果的查全率和查准率不是很高,将Web挖掘技术应用到搜索引擎领域,将会给用户提供一个高效、准确的Web检索工具。目前,Web用户主要是使用搜索引擎在互联网上检索信息,但目前的搜索引擎往往返回给用户成千上万个检索到的页面,且其中很大一部分是重复的或与用户检索要求不相关的内容。这些内容被认为是无效信息。
二.搜索引擎的分类
结合互联网信息的特点,搜索引擎形成了三个不同的类型:
1、全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表 性的有Google(http://www.google.com)、yahoo(http://search.yahoo.tom)、AllTheWeb(http://www.alltheweb.tom)等, 国内著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。
2、目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(http://www.yahoo.com)Open Directory Project(DMOZ)(http://www.dmoz.tom/)、LookSmart(http://www.100ksmart.com)等。国内的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、网易(http://www.163.com)搜索也都具有这一类功能。
3、元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile(http://www.dogpile.corn)、Vivisimo(http://www.vivisimo.com)等,国内元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.corn/),优客搜索(http://www.yok.com)。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、其他的像新浪(http://search.sina.corn.cn)、网易(http://search.163.com)、A9(http://www.A9.com)等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。
三.搜索引擎的缺陷
据MORI民意调查,只有18%的用户表示总能在网上查到需要的信息,68% 的用户对搜索引擎很失望,28%的用户表示还可以,4%的用户不知道。总之, 搜索引擎在准、全、新、快等方面还存在着严重的缺陷和问题,需要加以完善。
本文关键词:搜索引擎去重算法的研究与实现,由笔耕文化传播整理发布。
,本文编号:166244
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/166244.html