WEB数据挖掘和个性化搜索引擎研究
本文关键词:Web数据挖掘和个性化搜索引擎研究,由笔耕文化传播整理发布。
Web数据挖掘和个性化搜索引擎研究
硕士学位论文:We数据挖掘和个性化搜索引擎研究 b
索引数据库的建立关系到用户能否最迅速地找到最准确、 最广泛的信息,索
引一般按照倒排文件的格式存放〔 ratl。如果索引不能及时更新,Sie G rtO] a pdr带回的新信息就不能被使用搜索引擎的用户查到。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、 网站描述、网站UL R等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。新浪搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。新浪搜索引擎在建立索引库的过程中还对用户搜索的查询串进行跟踪,并对查询频率高的查询串建立 C ce ah页。
3用户检索的过程 .这是对前两个过程的检验, 检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。对于网站数据的检索,不同搜索引擎有不同的做法。比如新浪搜索引擎采用 Cin/ev结构、多进程 letSre的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均检索时间在 03 .秒左右)而作为国内众多门户网站的;网页检索技术提供商的百度公司,其搜索引擎则运用了先进的多线程技术,采用高效的搜索算法和稳定的UI平台,因 NX此可大大缩短对用户搜索请求的响应时间。作为慧聪工系列应用软件产品之一的 ISac20采用的超大规模动态缓 -erh00存技术,使一级响应的覆盖率达到 7%以上, 5独有的自学习能力可自动将二级响应的搜盖率扩充到2%以 0上。仁 hoO] C onO a 1 .搜索引擎的发展历史 .2 4
Ie t e实现了 nr t n全世界人们信息共享的愿望,,然而,信息的增长是无止境的, 为了能迅速、全面又准确地找到用户感兴趣的信息,就需要
一种工具来检索 We b
上的信息,这种工具被称之为搜索引擎。互联网从早期的APNt前的工tre, RAe到目 nent已经发展了近五十年。互联网上的信息越来越多,而且正在以每月近千万的数量增长。因此迫切需要一种信息
检索工具。 91 XAS 19年, WI提供了一个界面友好的信息搜索系统,但是这个系统 要求很特殊的文件格式。在同一年还出现了另外一个信息检索系统 GP E O HR
Word文档免费下载:Web数据挖掘和个性化搜索引擎研究 (下载1-4页,共4页)
本文关键词:Web数据挖掘和个性化搜索引擎研究,由笔耕文化传播整理发布。
本文编号:96929
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/96929.html