面向垂直搜索的网络爬虫设计与实现
本文关键词: 垂直搜索引擎 网络爬虫 Heritrix ChangyouSpider 异步加载 出处:《北京邮电大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着互联网的高速发展,互联网上的数据也在超乎人想象的急剧增长,人们对数据和信息的需求也在持续的增长。搜索引擎可以帮助人们从海量的数据中检索出需要的信息和数据,所以搜索引擎已经成为人们日常生活中必不可少的工具之一,它也影响了人们日常的记忆习惯。通过分析当今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我们发现这些主流的搜索引擎都包含了三个主要的部分:网络爬虫、索引、前端搜索,这三部分也是在工业界认可的三个主要部分。但是随着人们对信息的要求程度越来越高,目前搜索引擎的通用搜索已经不能满足人们的专门的需求,因为通用搜索引擎搜索结果信息量大,深度不够。基于此,垂直搜索大力发展起来。由于垂直搜索的专业性,以及对专属领域的深度,深受广大网民的青睐。强大的搜索引擎离不开数据的支持,而搜索引擎数据来源主要通过网络爬虫来获取,所以网络爬虫对于搜索引擎至关重要。本文面向垂直搜索引擎,搭建畅邮系统,提供通用搜索、图书搜索和视频搜索三种服务。首先,根据校园网络状况设计畅邮系统的架构,聚合三种服务于同一入口,并使畅邮系统能够实现不同网段的无缝访问。其次,调研当前主流开源网络爬虫,根据畅邮系统的需求选定Heritrix为网络爬虫原型,并分析其源码。在此基础上,对Heritrix进行高度定制,并解决异步加载抓取的问题。然后,根据Heritrix的运行状态和特点,设计并实现了适合垂直搜索引擎增量抓取的ChangyouSpider,它轻便、高效,以弥补Heritrix的不足,由此本文结合Heritrix和ChangyouSpider使用作为垂直搜索引擎抓取的网络爬虫。最后,对抓取的数据从全面性、杂质率、异步加载抓取、页面有效性的测试验证了爬虫的功能和性能。
[Abstract]:With the rapid development of the Internet, the data on the Internet is also growing rapidly beyond the imagination. The demand for data and information continues to grow. Search engines can help people retrieve the information and data they need from massive amounts of data, so search engines have become one of the essential tools in our daily lives. It also affects people's daily memory habits. By analyzing the global mainstream search engines today, including Google, Baidu Yahoolan, Bing Sogou, and so on, we find that these mainstream search engines all contain three main parts: web crawlers, indexes, etc. Front-end search, these three parts are also the three major parts recognized in industry. But with the increasing demand for information, the current search engine general search engine can no longer meet the specific needs of people. Because of the large amount of information and the lack of depth in the search results of the general search engine. Based on this, the vertical search has developed vigorously. Because of the professionalism of the vertical search, and the depth of the exclusive field, The powerful search engine can not be separated from the support of the data, and the search engine data source is mainly obtained by the web crawler, so the web crawler is very important to the search engine. Build the Changyou system to provide three services: universal search, book search and video search. Firstly, according to the campus network conditions, the structure of the Changyou system is designed to aggregate three kinds of services to the same entrance. Secondly, we investigate the current mainstream open source web crawlers, select Heritrix as the web crawler prototype according to the needs of the Changyou system, and analyze its source code. The Heritrix is highly customized, and the problem of asynchronous loading and fetching is solved. Then, according to the running state and characteristics of Heritrix, ChangyouSpideris designed and implemented, which is suitable for incremental capture of vertical search engine. It is light and efficient to make up for the shortage of Heritrix. In this paper, Heritrix and ChangyouSpider are used as web crawlers for vertical search engines. Finally, the crawler's function and performance are verified by the tests of comprehensiveness, impurity rate, asynchronous load grab and page validity.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
相关会议论文 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
相关硕士学位论文 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年
,本文编号:1513104
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1513104.html