一种基于大数据架构的地震科普资源库的设计和开发
发布时间:2021-09-30 12:41
当今时代,愈发庞大的数据难以有效处理运用和管理,需要一种更加合适的资源获取处理方式。该文基于大数据架构结合网络爬虫、数据清洗、信息检索等前沿技术,设计开发了地震科普知识资源库系统。其中运用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技术。通过网络爬虫和人工上传的方式采集地震科普相关信息资源,经过数据清洗转换后对信息资源进行自动分类,最后将资源上传至资源库hdfs分布式文件系统并将文件信息保存至Elasticsearch分布式文件索引系统,由此实现大数据架构下的全文检索。同时,建立资源库的后台管理系统,用于网站的日常管理和维护。相比以前的集群文件系统更加高速便捷、更加的安全稳定。
【文章来源】:科技资讯. 2020,18(05)
【文章页数】:3 页
【部分图文】:
资源库整体架构
HDFS分布式文件存储系统主要用于各类资源的存储和下载,可运行于廉价的商用机器集群上,对硬件要求低,且具有很大商业价值。Elasticsearch是一个实时的分布式搜索和分析引擎,是天生为分布式执行数据分析操作而生的架构,海量数据下的近实时(秒级)性能支持,以及无比强大的搜索和聚合分析的语法支持,让ES更加适合进行大数据场景下的数据分析应用。5 结语
数据采集分人工上传和网络爬虫两种,使用爬虫抓取数据可以提高数据采集的效率。网络爬虫会根据给定网址进行爬取,通过spiderkeeper对爬虫进行管理。该文运用spiderkeeper配合scrapyd管理爬虫,支持一键式部署、定时爬取任务、启动、暂停等一系列的操作。3.2 数据处理
【参考文献】:
期刊论文
[1]教学资源库现状及发展趋势分析[J]. 范继魏. 现代商贸工业. 2016(31)
本文编号:3415883
【文章来源】:科技资讯. 2020,18(05)
【文章页数】:3 页
【部分图文】:
资源库整体架构
HDFS分布式文件存储系统主要用于各类资源的存储和下载,可运行于廉价的商用机器集群上,对硬件要求低,且具有很大商业价值。Elasticsearch是一个实时的分布式搜索和分析引擎,是天生为分布式执行数据分析操作而生的架构,海量数据下的近实时(秒级)性能支持,以及无比强大的搜索和聚合分析的语法支持,让ES更加适合进行大数据场景下的数据分析应用。5 结语
数据采集分人工上传和网络爬虫两种,使用爬虫抓取数据可以提高数据采集的效率。网络爬虫会根据给定网址进行爬取,通过spiderkeeper对爬虫进行管理。该文运用spiderkeeper配合scrapyd管理爬虫,支持一键式部署、定时爬取任务、启动、暂停等一系列的操作。3.2 数据处理
【参考文献】:
期刊论文
[1]教学资源库现状及发展趋势分析[J]. 范继魏. 现代商贸工业. 2016(31)
本文编号:3415883
本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/3415883.html