南通市档案馆大数据管理平台关键技术研究

发布时间:2021-09-25 05:30
  档案是企业的重要信息资源之一,在网络信息化趋势越来越明显的如今,南通市档案馆的“库存”数据量也早已远胜先前,档案馆存有来自全国各省份的档案,对南通市档案馆大数据的管理和应用显得尤其重要。其中,南通市档案馆大数据实时分析是其关键应用之一。基于此,对于南通市档案馆大数据管理核心需实现存储、自动备份、易于处理等重要目标,然而这些目标基于传统关系型数据库来实现会造成南通市档案馆大数据的管理即在容量、存储效率、处理性能和查询优化方面存在一定的瓶颈问题。对传统研究方式涉及到的问题总结概括以下三点,第一,存储性能方面,传统关系型数据中存储的数据越来越多,可扩展性也因此而显得较低,性能较低,并对于半结构化、非结构话的数据存储效果不理想。第二,分析效率查询这一层面上,对于有相对较大数据量的表,其往往查询效率较低且延迟高。第三,并发高这一方面,因其关系型库带来的诸多关联导致的慢查询造成服务器cpu负载较高,无响应。从传统研究方式表现出的各种不足,提出优化分析平台用于南通市档案馆层面的大数据管理,本研究的主要工作包括:⑴对于南通市档案馆大数据的管理,首先提出面向南通市档案馆的大数据管理平台方面的系统架构。其... 

【文章来源】:上海师范大学上海市

【文章页数】:54 页

【学位级别】:硕士

【部分图文】:

南通市档案馆大数据管理平台关键技术研究


面向南通市档案馆大数据管理平台系统架构图

流程图,架构,流程图,档案馆


第4章南通市档案馆大数据管理平台详细设计与实现上海师范大学硕士学位论文18第4章南通市档案馆大数据管理平台详细设计与实现在本章我们将一步一步详细地介绍架构的设计与实现,从图4-1中的流程图中我们可以发现需要做各个系统的搭建及其之间的整合配置,包括Flume与Kafka的整合配置,Kafka与sparkstreaming的整合配置等。图4-1总体架构流程图4.1通过Flume采集数据发送到Kafka4.1.1Flume和Kafka整合概述对于Flume而言,关键在于如何采集数据,并且将其发送到Kafka上,并且由于我们这里使用了Flume集群的方式,Flume集群的配置也是十分关键的。而对于Kafka,关键就是如何接收来自Flume的数据。从整体上讲,逻辑应该是比较简单的,首先可以在Kafka中创建一个用于我们实时处理系统的topic,然后Flume将其采集到的数据发送到该topic上即可,如图4-2。

结构图,结构图,日志,数据


上海师范大学硕士学位论文第4章南通市档案馆大数据管理平台详细设计与实现19图4-2flume集群结构图4.1.2Flume集群配置与KafkaTopic创建4.1.2.1Flume集群配置在我们的场景中,两个FlumeAgent分别部署在两台Web服务器上,用来采集Web服务器上的日志数据,然后将其数据的下沉方式都发送到另外一个FlumeAgent上,所以这里我们需要配置三个FlumeAgent.(1)FlumeAgent01该FlumeAgent部署在第一台Web服务器上,用来采集产生的档案出入库日志,然后发送到FlumeConsolidationAgent上,并创建一个新的配置文件flume-sink-avro.conf,其主要配置内容如下:1.主要作用是监听文件中的新增数据,采集到数据之后,输出到avro2.注意Flumeagent的运行,主要就是配置sourcechannelsink3.下面的a1就是agent的代号,source叫r1channel叫c1sink叫k1a1.sources=r1a1.sinks=k1a1.channels=c14.对于source的配置描述,监听文件中的新增数据execa1.sources.r1.type=execa1.sources.r1.command=tail-F/home/uplooking/data/data-clean/data-access.log5.对于sink的配置描述,使用avro日志做数据的消费


本文编号:3409186

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3409186.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b6c74***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com