搜索引擎Google的体系结构及其核心技术研究
本文关键词:搜索引擎Google的体系结构及其核心技术研究,由笔耕文化传播整理发布。
介绍Google的体系结构、核心技术
第22卷第1期
2006年2月
哈尔滨商业大学学报(自然科学版)
JournalofHarbinUniversityofCommerce(NaturalSciencesEdition)
Vol.22No.1Feb.2006
搜索引擎Google的体系结构及其核心技术研究
王德峰,李 东
1,2
1
(1.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001;2.哈尔滨商业大学计算机与信息工程学院,黑龙江哈尔滨150028)
摘 要:Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.
关键词:搜索引擎;PageRank;Google;网络爬行机器人;排序中图分类号:TP393 文献标识码:A
文章编号:1672-0946(2006)01-0084-04
StudyonarchitectureandcoretechnologyofsearchengineGoogle
WANGDe feng,LIDong
1,2
1
(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2.SchoolofComputerandInformationEngineering,HarbinUniversityofCommerce,Harbin150028,China)
Abstract:ItishardtoretrieveinformationontheInternet,butsearchenginemakeiteasy.ThedataontheInternetissolargethattheretrieveinformationtechnologyonthenormaldatabasecannotmeettherequirement.Toresolvetheproblem,sometechnologies,suchasparallelprocess ing,barrelsorting,compressionandPageRank,areappliedtoGoogle.Soitisacomplicatedsystemwhichhavefiveparts,crawler,Repository,indexsystem(includingindexer,barrels,fileindexandsoon),sorter,searcher.TheranksystemofGoogleconsidersbothcount weight,typeweight,prox weight,andPageRankwhichweighttheimportanceofapage.AppliedAcademiccitationliteraturetotheWeb,apagecanhaveahighPageRankiftherearemanypagesthatpointtoit,oriftherearesomepagesthatpointtoitandhaveahighPageRank.ApplyingthePageR ank,thesearchtechnologyisimprovedeffectively.
Keywords:searchengine;PageRank;Google;crawler;sort
据统计,Web已经拥有100亿左右的静态网页
[1]
和550亿左右的动态网页.在如此浩瀚的信息海洋里寻找信息,如同 大海捞针 .而方便快捷的搜索引擎为我们提供了可能,这也是搜索引擎高据榜首的原因之一.
收稿日期:2005-09-21.
作者简介:王德峰(1974-),女,教师,研究方向:搜索引擎,Web数据挖掘;李 东(1967-),博士后,教授.研究方向:网络信息安全技术,并行计算,计算机系统结构,计算机图形学等.
根据!中国互联网络发展状况统计报告(2005 1) 用户在互联网上获取信息最常用的方法是通
[2]
过搜索引擎:占70.7%.远远高于位于第二位的直接访问已知的网站:占24.6%.搜索引擎的后起之秀Google每天处理的搜索请求已达2亿次.由此可
本文关键词:搜索引擎Google的体系结构及其核心技术研究,由笔耕文化传播整理发布。
,本文编号:136693
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/136693.html