当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎Google的体系结构及其核心技术研究

发布时间:2016-10-10 20:54

  本文关键词:搜索引擎Google的体系结构及其核心技术研究,由笔耕文化传播整理发布。


介绍Google的体系结构、核心技术

第22卷第1期

2006年2月

哈尔滨商业大学学报(自然科学版)

JournalofHarbinUniversityofCommerce(NaturalSciencesEdition)

Vol.22No.1Feb.2006

搜索引擎Google的体系结构及其核心技术研究

王德峰,李 东

1,2

1

(1.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001;2.哈尔滨商业大学计算机与信息工程学院,黑龙江哈尔滨150028)

摘 要:Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.

关键词:搜索引擎;PageRank;Google;网络爬行机器人;排序中图分类号:TP393 文献标识码:A

文章编号:1672-0946(2006)01-0084-04

StudyonarchitectureandcoretechnologyofsearchengineGoogle

WANGDe feng,LIDong

1,2

1

(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2.SchoolofComputerandInformationEngineering,HarbinUniversityofCommerce,Harbin150028,China)

Abstract:ItishardtoretrieveinformationontheInternet,butsearchenginemakeiteasy.ThedataontheInternetissolargethattheretrieveinformationtechnologyonthenormaldatabasecannotmeettherequirement.Toresolvetheproblem,sometechnologies,suchasparallelprocess ing,barrelsorting,compressionandPageRank,areappliedtoGoogle.Soitisacomplicatedsystemwhichhavefiveparts,crawler,Repository,indexsystem(includingindexer,barrels,fileindexandsoon),sorter,searcher.TheranksystemofGoogleconsidersbothcount weight,typeweight,prox weight,andPageRankwhichweighttheimportanceofapage.AppliedAcademiccitationliteraturetotheWeb,apagecanhaveahighPageRankiftherearemanypagesthatpointtoit,oriftherearesomepagesthatpointtoitandhaveahighPageRank.ApplyingthePageR ank,thesearchtechnologyisimprovedeffectively.

Keywords:searchengine;PageRank;Google;crawler;sort

据统计,Web已经拥有100亿左右的静态网页

[1]

和550亿左右的动态网页.在如此浩瀚的信息海洋里寻找信息,如同 大海捞针 .而方便快捷的搜索引擎为我们提供了可能,这也是搜索引擎高据榜首的原因之一.

收稿日期:2005-09-21.

作者简介:王德峰(1974-),女,教师,研究方向:搜索引擎,Web数据挖掘;李 东(1967-),博士后,教授.研究方向:网络信息安全技术,并行计算,计算机系统结构,计算机图形学等.

根据!中国互联网络发展状况统计报告(2005 1) 用户在互联网上获取信息最常用的方法是通

[2]

过搜索引擎:占70.7%.远远高于位于第二位的直接访问已知的网站:占24.6%.搜索引擎的后起之秀Google每天处理的搜索请求已达2亿次.由此可


  本文关键词:搜索引擎Google的体系结构及其核心技术研究,由笔耕文化传播整理发布。



本文编号:136693

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/136693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e23c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com