当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Scrapy的番茄病虫害数据收集

发布时间:2021-04-05 23:30
  在番茄病虫害防治中常常出现因资料分散而导致的信息获取不全或是利用效率低等问题,为此提出利用计算机技术设计一套针对开放网络上的多方数据进行收集与整理的方法。该方法基于Scrapy框架依次确定爬取对象、设计爬取流程、分析原始网页、存储相关数据,最后依托Django框架搭建可视化界面用于前端与后台的数据交互。由此实现了对各类数据的有效收集和按规则的结构化存储,为在番茄病虫害领域搭建系统、专业的知识库提供数据依据。 

【文章来源】:电脑知识与技术. 2019,15(03)

【文章页数】:3 页

【部分图文】:

基于Scrapy的番茄病虫害数据收集


词条源代码3数据存储断樱左储县熔扮棍可s仆的前一先骤铣怪合书舌的扮棍成

根腐,番茄,褐色,病虫害


百度为辅,整合番茄病虫害名称,再进行后续爬取。2.2 设计爬取流程根据确定的番茄病虫害名称,从多方数据源中爬取所需数据,以在互动百科为例,设计数据爬取流程,如图2。图2 scrapy框架爬取数据流程系统先根据番茄病虫害名称对互动百科词条的初始 URL进行解析,响应内容包括URL 和数据。URL 解析时,相关模块会基于定义的 HTML 规则将该页面中所包含的其他词条 URL保存至词条 URL 库中[4]。系统不断地对词条 URL 库中的 URL进行解析,并将获取到的数据内容存储在csv文件中。2.3 网页对象分析导入数据库。4 数据应用通过上述一系列步骤,我们将分散在互联网各处的有关番茄病虫害的非结构化数据进行了梳理整合,通过Scrapy技术将其以结构化的形式存储于数据库中。然而对于目标人群,例如农技人员、普通种植户等,依旧无法直接对数据进行查看甚至利用。因此,本文利用Django网页框架为用户搭建了番茄病虫害搜索界面,从而方便目标人群使用及帮助完善。Django 框架是基于Python语言编写的一个开源免费的Web应用框架[7]。在用户输入界面中提供了两种查询方式,包括按病虫害名称查询和按发病部位查询,在单击查询后即可获取相应的搜索结果。4.1 按名称搜索图 4 以番茄褐色根腐病为例展示了按病虫害名称的搜索结果。利用用户输入的名称关键字,在数据库中进行关键字匹配,返回存储在数据库中相对应的结果,结果包含名称、发病部

部位,病虫害,番茄,名称


百度为辅,整合番茄病虫害名称,再进行后续爬取。2.2 设计爬取流程根据确定的番茄病虫害名称,从多方数据源中爬取所需数据,以在互动百科为例,设计数据爬取流程,如图2。图2 scrapy框架爬取数据流程系统先根据番茄病虫害名称对互动百科词条的初始 URL进行解析,响应内容包括URL 和数据。URL 解析时,相关模块会基于定义的 HTML 规则将该页面中所包含的其他词条 URL保存至词条 URL 库中[4]。系统不断地对词条 URL 库中的 URL进行解析,并将获取到的数据内容存储在csv文件中。2.3 网页对象分析导入数据库。4 数据应用通过上述一系列步骤,我们将分散在互联网各处的有关番茄病虫害的非结构化数据进行了梳理整合,通过Scrapy技术将其以结构化的形式存储于数据库中。然而对于目标人群,例如农技人员、普通种植户等,依旧无法直接对数据进行查看甚至利用。因此,本文利用Django网页框架为用户搭建了番茄病虫害搜索界面,从而方便目标人群使用及帮助完善。Django 框架是基于Python语言编写的一个开源免费的Web应用框架[7]。在用户输入界面中提供了两种查询方式,包括按病虫害名称查询和按发病部位查询,在单击查询后即可获取相应的搜索结果。4.1 按名称搜索图 4 以番茄褐色根腐病为例展示了按病虫害名称的搜索结果。利用用户输入的名称关键字,在数据库中进行关键字匹配,返回存储在数据库中相对应的结果,结果包含名称、发病部

【参考文献】:
期刊论文
[1]基于Scrapy技术的数据采集系统的设计与实现[J]. 杨君,陈春玲,余瀚.  计算机技术与发展. 2018(10)
[2]基于Scrapy的农业网络数据爬取[J]. 李乔宇,尚明华,王富军,刘淑云.  山东农业科学. 2018(01)
[3]基于Neo4j图数据库的课程体系知识图谱系统设计与实现[J]. 肖庆都,屈亮亮,侯霞.  电脑知识与技术. 2017(36)
[4]江苏无锡市设施番茄病虫害发生特点与绿色防控策略[J]. 吴军,倪萌,夏倩,张晓峰.  中国园艺文摘. 2017(10)
[5]基于Scrapy框架的电商数据分析平台[J]. 孙小越,王超.  电脑知识与技术. 2017(28)
[6]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳.  计算机应用. 2016(04)

硕士论文
[1]基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 安子建.吉林大学 2017



本文编号:3120305

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3120305.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4766d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com