基于网络爬虫的蔬菜价格信息监测分析系统的设计与实现
发布时间:2021-03-21 01:34
我国是人口大国,改革开放促进了我国城镇化,城市居民增加,对农产品尤其是蔬菜的需求量大,蔬菜的生产与供给是政府工作的重点。如今网络上蔬菜信息浩如烟海且具有很强的时效性,相同的蔬菜在不同的区域价格差距又比较大,如何在庞大的农业数据中提取到有利于农业生产、销售有利的信息非常重要,这就需要有精确的蔬菜价格信息进行对比,从而有助于政府对农产品市场的蔬菜价格进行调控;同时农民可以根据实时的农产品价格对农产品进行选择性的栽种,避免造成损失。现有的农业垂直搜索引擎更侧重于农产品的交易信息,虽然提供了便捷的交易平台,但却不便于农业生产者分析行情,也不能给农业生产者的种植提供参考。因此,有必要设计一个针对蔬菜价格信息的监测分析系统以方便农业生产者更快速、准确、及时的了解到不同蔬菜的价格趋势,以便于更合理的种植。本论文设计基于网络爬虫的蔬菜价格信息监测分析系统包括三个部分,即蔬菜价格信息采集、蔬菜价格信息存储和蔬菜价格信息分析。首先使用C#语言编写基于.net框架的网络爬虫对蔬菜价格信息数据进行爬取,采用正则表达式将数据进行分类,然后将爬取到的数据存储到MongoDB数据库中,在MongoDB中建立数据导入...
【文章来源】:重庆三峡学院重庆市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
主题网络爬虫的工作流程图
主题网络爬虫的工作方式是优先级地址,通过评级链接收集地址,并选择策略,然后使用优先级链接作为爬虫过程的初始链接。访问URL后,下载网页并分析网页内容与主题之间的关系。如果相关性高于某个阈值,则页面上的所有超链接都将被提取,最后,所有与主题相关的链接都将被URL主题分析器存储在一个升级的队列中。主题网络爬虫的抓取过程如图2-2所示:2.2.2 主题式网络爬虫的体系结构
主题式爬虫首先选择行来抓取与主题相关的页面,这并不需要完全的网络覆盖,因此大大降低了计算机的硬件需求和网络资源。其次,需要保存的页面较少,所以更新速度比一般的网络爬虫要快,可以更好的满足用户对特定查询主题信息的需求。总而言之,主题式爬虫的目标是查询用户需要的信息,因此,主题相关度高的网页更关注如何提高抓取的准确性和速度。用图2-3来表示主题式网络爬虫的体系结构如下:为了爬取更多主题信息相关网页,主题网络爬虫在通用网络爬虫的基础上做了以下的调整:
本文编号:3092058
【文章来源】:重庆三峡学院重庆市
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
主题网络爬虫的工作流程图
主题网络爬虫的工作方式是优先级地址,通过评级链接收集地址,并选择策略,然后使用优先级链接作为爬虫过程的初始链接。访问URL后,下载网页并分析网页内容与主题之间的关系。如果相关性高于某个阈值,则页面上的所有超链接都将被提取,最后,所有与主题相关的链接都将被URL主题分析器存储在一个升级的队列中。主题网络爬虫的抓取过程如图2-2所示:2.2.2 主题式网络爬虫的体系结构
主题式爬虫首先选择行来抓取与主题相关的页面,这并不需要完全的网络覆盖,因此大大降低了计算机的硬件需求和网络资源。其次,需要保存的页面较少,所以更新速度比一般的网络爬虫要快,可以更好的满足用户对特定查询主题信息的需求。总而言之,主题式爬虫的目标是查询用户需要的信息,因此,主题相关度高的网页更关注如何提高抓取的准确性和速度。用图2-3来表示主题式网络爬虫的体系结构如下:为了爬取更多主题信息相关网页,主题网络爬虫在通用网络爬虫的基础上做了以下的调整:
本文编号:3092058
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3092058.html
最近更新
教材专著