基于亚马逊网站的特定电子商品爬虫设计与实现
发布时间:2020-07-26 21:47
【摘要】:通信技术和计算机的发展极大的促进了网络的普及和发展,近年来,各类电子商务网站飞速发展,一大批B2C、C2C模式的购物网站的出现为消费者提供了更为广阔的选择空间,网络购物的成交额屡创新高。随着网络购物的发展,商品的品类和数量也在逐渐增多,海量的商品信息使得消费者往往无法获得最优惠的商品,优惠网系统就是在这样的背景下提出的。优惠网系统旨在为用户提供及时有效的商品促销信息,为用户提供购物参考。在电子商务较为发达的欧美地区,同类功能的网站已经运行的非常成功,但目前国内尚无推送大型购物网站优惠信息的先例,从实际应用的角度来看优惠网系统在某种程度上满足了广大消费者的需求,有很好的前景。 最初的搜索引擎中并没有网络爬虫,随着互联网的发展,网页数量越来越多,信息量越来越大,网络爬虫自动获取网页信息的功能便显示出其优势来。搜索引擎是搜索引擎使用关键字在互联网上进行搜索的程序,是一种在用于在数据库和互联网上检索符合要求的记录的计算机程序。在日志或索引数据中,搜索引擎逐个检索特定的内容的记录,如作者、题目、主题等,在网络中,网络爬虫通过爬行网页获得诸如URL、文档中的文本或者文档的标题等网络索引信息。搜索引擎主要有搜集信息、整理信息和接受查询三个部分的工作,网络爬虫的主要作用在于第一个部分,从最初的几个页面开始爬行到待爬行队列变空或满足结束条件时结束爬行。网络爬虫也可以作为网站链接检查的工具,在链接活性的检查方面具有独特的优势。 本文中的爬虫是为优惠商品搜索发布系统提供资源而设计的,优惠商品搜索发布系统是一个为用户网络购物提供方便的系统,用户通过浏览系统推荐的商品信息可以方便快捷的获得优惠商品信息,节省商品搜索的时间,同时系统还可以为购物网站增加销售量。爬虫设计的主要目的是为系统提供分类信息,本文以电子商品分类为例。通过分析AMAZON API获取XML文件,解析后获得树结构的XML文件,应用网络爬虫的相关知识获取商品分类种子列表进而获取相对应的商品信息列表。 本文大体包括基于爬虫的种子列表的获取、优惠商品搜索发布系统框架的设计和实现等部分,主要介绍了调用亚马逊API获取XML文件进行解析提取关键字获取推荐商品信息的过程、系统架构总体的架构设计及各功能模块的设计与实现。 综上所述,本文设计了基于亚马逊网站的特定电子产品爬虫并将其应用于优惠商品推荐系统,在此基础上系统实现了各模块功能,但在系统安全性、稳定性和操作性方面还有待加强,关键字获取的方法还可以进一步研究,界面美工设计也有不足之处,在未来的工作中会逐步完善。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.52
本文编号:2771331
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.52
【参考文献】
相关期刊论文 前6条
1 穆福森;吴观茂;;基于Struts+Spring+Hibernate Web应用开发框架技术[J];电脑知识与技术;2006年02期
2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
3 李小平;肖岳峰;宿元;宋瀚涛;姚永标;;基于J2EE多层架构的Web开发框架研究[J];计算机应用研究;2008年05期
4 黄华;框架技术在Web系统开发中的应用[J];微机发展;2005年05期
5 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
6 林寒超;张南平;;Hibernate技术的研究[J];计算机技术与发展;2006年11期
本文编号:2771331
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2771331.html