搜索引擎中通用爬虫系统的研究与设计
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2013
【中图分类】:TP391.3
【部分图文】:
第二章 相关技术研究需要实时计算出满足需求的网页,并且排序输出给用户。综上所述,下载统、索引系统和查询系统共同的组成了搜索引擎系统。下载系统负责下载本地并保持本地网页与互联网网页的同步。分析系统负责将下载系统下载ageRank 和分词。索引系统则负责将网页库进行索引。查询系统负责与用户查询结果显示给用户。搜索引擎的简要结构图如图 2.1 所示:
树的典型结构
22. C[i] := 0 ;23. end为了形象的展现 OPIC 算法,本文以图 2.5 为例:图 2.5 URL 拓扑结构图图 2.5 中节点代表 URL,节点之间的连线代表 URL 之间的超链接。我们以表 2.1 来展现使用 OPIC 的抓取流程,在表 2.1 中,每一行中被粗体标注数字对应的 URL 为被调度器选中的 URL,将在下一轮被抓取;“*”表示该网页已被抓取;“--”表示该网页尚未被系统获知。表 2.1 URL 抓取流程A B C D E0(injected) 1.0 -- -- -- --1 1.0* 0.5 0.5 -- --2 1.0* 0.5* 0.5 0.25 0.253 1.0* 0.5* 0.5* 0.25 0.754 1.0* 1.25* 0.5* 0.25 0.75*5 1.0* 1.25* 0.5* 0.25* 0.75*
【参考文献】
相关期刊论文 前5条
1 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
2 马成前;毛许光;;网页查重算法Shingling和Simhash研究[J];计算机与数字工程;2009年01期
3 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
4 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
5 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期
相关博士学位论文 前2条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
相关硕士学位论文 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
3 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
4 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
5 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
6 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年
7 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
8 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年
9 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
10 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
本文编号:2870505
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2870505.html