面向电子商务网站的增量爬虫设计与实现

发布时间：2017-06-05 00:03

本文关键词：面向电子商务网站的增量爬虫设计与实现，由笔耕文化传播整理发布。

【摘要】：随着互联网和电子商务的快速发展,电子商务网站越来越多,为了尽快的找到和比较商品,越来越多的人通过比较购物网站来精准的搜索和比较商品。在比较购物网站中,可以轻松的获取商品的详细信息,如价格、性能参数、图片等信息,还能方便的比较同一商品在不同电子商务网站的价格、评价等信息,从而选择合适的电子商务网站进行购物。然而,电子商务网站时刻都在发生变化,如商品的新增、删除以及商品价格的调整等。传统的比较购物网站往往存在商品信息滞后,数据与电子商务网站存在较大差异,影响用户体验,不能真正实现比较购物。为了解决上述问题,在比较购物网站中需要引入增量爬虫来实现数据的增量抓取。增量爬虫的特征是维护网页的变化轨迹并预测变化时间,提供待检查的URL列表。增量爬虫对电子商务网站的增量抓取效果,直接影响比较购物网站数据的准确性,可以说增量抓取技术的应用程度,是整个比较购物网站是否成功的关键。一个好的增量抓取爬虫,可以减少购物搜索引擎中人工干预的程度,提高搜索引擎自身的时新性、查准率和查全率,以及有效改善网络带宽的使用效率。根据相关统计数据显示,国内电子商务网站的层级主要分为二级和三级,基于这一规律,本文提出了基于URL分类的爬行策略,将URL分为Index类、Channel类、List类、Content类、其它类。其中Index类、Channel类和List类为索引类URL,索引类URL指向的页面不包含具体商品信息,以导航形式指向其它索引页或Content内容页,Content类指向的页面为商品详细页,包含了商品的名称、图片、价格、介绍等信息,图片及其它类指向图片、CSS样式、附件等文件。同时设计了面向电子商务网站的抓取模型,对增量抓取的关键算法进行了描述,并在开源网络爬虫Heritrix的基础上实现增量抓取。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够及时有效的发现电子商务网站数据的更新,实现增量抓取。
【关键词】：电子商务 搜索引擎 增量爬虫 Heritrix
【学位授予单位】：湖南大学
【学位级别】：硕士
【学位授予年份】：2010
【分类号】：TP393.092
【目录】：

摘要5-6
Abstract6-9
插图索引9-10
附表索引10-11
第1章绪论11-17
1.1 课题研究背景及意义11-12
1.2 国内外研究现状12-15
1.2.1 国外研究现状12-14
1.2.2 国内研究现状14-15
1.3 本文的研究内容15-16
1.4 论文结构16-17
第2章搜索引擎及网络爬虫相关技术17-29
2.1 搜索引擎的发展17-18
2.2 购物搜索引擎18-19
2.3 网络爬虫19-21
2.3.1 网络爬虫的工作原理19-20
2.3.2 网络爬虫的搜索策略20-21
2.4 增量抓取技术21-24
2.5 开源网络爬虫 Heritrix24-27
2.5.1 Heritrix 爬虫的架构24-25
2.5.2 抓取任务控制组件CrawlController25-26
2.5.3 URL 提取组件Frontier26
2.5.4 处理链接队列Processors26-27
2.5.5 Heritrix 的多线程机制27
2.6 本章小结27-29
第3章网页增量抓取策略及爬虫系统设计29-42
3.1 电子商务网站的总体特征29-30
3.2 电子商务网站的页面变化规律30-31
3.2.1 网页变化的特征30
3.2.2 网页变化的时新性30
3.2.3 网页变化分析方法30-31
3.3 基于 URL 分类的网页增量抓取策略31-34
3.3.1 URL 的分类31-32
3.3.2 基于 URL 分类的网页增量抓取策略32-34
3.4 增量爬虫的系统结构34-35
3.5 系统各模块设计35-38
3.5.1 用户接口模块35-36
3.5.2 链接生成模块36-37
3.5.3 任务控制模块37-38
3.5.4 中央处理器模块38
3.5.5 数据模块38
3.6 增量抓取的关键技术38-41
3.6.1 多线程下载38-39
3.6.2 网页分析39
3.6.3 页面检测及更新39-41
3.7 本章小结41-42
第4章基于Heritrix 的增量爬虫系统实现42-55
4.1 开发环境42
4.2 基于 Heritrix 进行扩展42-44
4.2.1 Heritrix 的配置和运行42-43
4.2.2 Eclipse 中 Heritrix 的配置43-44
4.3 增量抓取功能的实现44-46
4.3.1 页面的变化检测44-45
4.3.2 页面更新的实现45-46
4.4 针对电子商务网站页面分析技术实现46-49
4.4.1 从列表页获取产品详细页的实现46-47
4.4.2 产品信息抽取的实现47-49
4.5 URL 的过滤和分类49-51
4.5.1 URL 过滤规则的实现49-50
4.5.2 URL 的分类实现50-51
4.6 实验及结果分析51-54
4.7 本章小结54-55
结论与展望55-57
参考文献57-61
致谢61-62
附录A 作者攻读硕士学位期间的主要研究成果62

【参考文献】

中国期刊全文数据库前10条

1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期

2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

3 沈文勤,李庆超,邵志清;搜索引擎的渐增式爬行和备份式更新模式[J];华东理工大学学报;2004年03期

4 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期

5 李盛韬,成绫,余智华;分布式Web信息采集系统的研究与设计[J];计算机工程与应用;2003年16期

6 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

7 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

8 孟祥乾;叶允明;邓斌;;基于流水线负载平衡模型的并行爬虫研究[J];计算机工程;2009年02期

9 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

10 徐文杰;陈庆奎;;增量更新并行W eb爬虫系统[J];计算机应用;2009年04期

中国硕士学位论文全文数据库前1条

1 薛宇星;基于Herixtrix和Lucene的Web站内搜索系统[D];西安电子科技大学;2008年

本文关键词：面向电子商务网站的增量爬虫设计与实现，由笔耕文化传播整理发布。

，

本文编号：422431

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/422431.html

上一篇：电子商务环境下生鲜农产品物流同城配送网络优化
下一篇：关于完善我国跨境直接电子商务税收制度的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|