面向特定网页的Web爬虫的设计与实现

发布时间：2019-11-16 01:58

【摘要】：万维网中数据的高速增长使得Web已经成为了全球最大的信息库。面对这个数量庞大、结构各异、半结构化的数据库，用户很难在短时间内查找到他们真正需要的信息，从而产生了信息虽然庞大，但有用的内容匮乏的问题。而不同领域的用户所需的信息又有差别，为了解决这个问题，个性化信息采集技术孕育而生，而面向特定网页的网络爬虫是这一技术的实现手段之一。本文深入分析了现阶段海量网络资源与通用搜索引擎技术上缺陷之间给用户带来的不便，根据国际上的开发现状说明了研发这项系统的必要性和紧急性。通过系统结构图的方式介绍了网络爬虫的工作流程，进而对爬虫的两个主要模块：网页获取、内容提取做了简要分析。对于网页分析主要分析了通用的三种网页的搜索策略及其优缺点。对网页内容提取主要介绍了相关的难点和技术困难。按照系统设计中应遵循的原则，通过图的形式给出了应用层、业务逻辑层、数据层的系统体系结构。通过详细的设计，完成了本系统在信息的采集、处理、存储等方面的模块。同时列出了系统的关键部分：爬行策略、链接分析、信息提取的算法实现。最后进行了数据库的设计。该爬虫系统对URL评价：判断URL域名、对不完整URL进行恢复（恢复URL网络协议、主机名、当前页面在服务器的文件名），并采用最佳优先爬行策略进行爬取，将获得的网页信息进行分析（基于HTML树形结构），获取、解析相关论坛的评论信息，存储、并提供给用户。最后设计了友好的图形用户界面，实现人机交互。实验和测试证明了本爬虫原型系统的正确性和有效性，以实例展示了本系统的爬行结果和最后存储的有效评论信息，该原型系统能够高效地获取特定网页的相关信息并展示给用户。
【图文】：

界面图,界面,网络爬虫,网页

图 2.4 TextPad 运行界面2.4 本章小结本章先通过系统结构图的方式介绍了网络爬虫的工作流程，进而对爬虫的网页获取、内容提取这两个主要模块做了简要分析。对于网页分析主要介绍并分析了通用的三种网页的搜索策略的发展过程及其优缺点。对于网页内容的提取以及主要设计思路主要介绍了相关的难点和技术困难。通过本章我们了解了网络爬虫的相关知识以及面临的困难，为后续设计做了理论上的铺垫。

系统结构图,系统结构图

期测试提供必要的支持。在这里通过分析现有的搜索引擎，以提高系统和实用性作为目标，最后制定了本系统的具体需求。系统实现目标针对特定网页的网络爬虫要求能够针对特定网页进行内容解析，获取有并对其处理导入数据库。本爬虫的功能如下：（1）用户通过友好的 GUI，，输入想要获取信息的初始 URL；（2）解析网页内容，进行处理获取后续的 URL，并获得有用的内容结果存储到文件中；（3）对中间结果进行处理导入到数据库。功能性需求描述由上述分析可知，系统应分为信息采集、信息处理、信息存储三个模块统结构图见图 3.1。
【学位授予单位】：吉林大学
【学位级别】：硕士
【学位授予年份】：2012
【分类号】：TP391.3;TP311.52

【参考文献】