大数据云存储及综合应用系统的设计与实现
发布时间:2017-09-21 17:03
本文关键词:大数据云存储及综合应用系统的设计与实现
【摘要】:作为大数据应用的某单位积累了种类繁多、数据量达PB级的海量数据信息,而且每天还持续不断的产生超过1TB的数据。各种数据资源的来源不统一,数据类型多样化,数据存储方式各异,业务系统分散,业务用户对数据全文检索、比对应用的反馈速度要求越来越高,现有系统的数据比对性能和全文检索能力急剧下降。同时,多种来源格式的外部数据如何高效快速加载到数据库提供业务应用也是需要考虑的问题。因此,我们迫切需要利用大数据处理技术来设计符合该业务应用的大数据存储与综合应用方案。本论文就是致力于通过Hadoop大数据存储架构、ElasticSearch分布式全文检索技术和ETL应用技术解决在实际工作中遇到的传统关系型数据库和全文数据库在进行大规模数据处理、检索和比对时的性能瓶颈问题,以及多数据源的高频率增量加载入库性能问题。目前,基于Hadoop架构、ElasticSearch分布式全文检索技术的分布式数据比对引擎和全文检索技术,以及开源的Kettle ETL应用能够满足以上需求。但在地址类型的数据比对和检索效率以及多数据源高频增量加载效率上还存在一些问题,需要对地址比对算法、中文分词和Kettle自带的数据加载插件进行改进优化。为解决这些问题,本文的主要工作如下:(1)分析了系统在数据存储和全文检索、数据比对、多数据高频加载等综合应用方面的需求,进行了系统总体架构和功能设计;(2)建立分布式数据比对引擎并优化地址比对算法,提高数据比对性能;(3)建立分布式全文检索应用并优化中文分词算法,提高全文检索效率;(4)针对外部数据更新方式,选取合适的ETL抽取加载方法,实现多据源高频增量加载,并通过多线程处理方法和优化加载代码提高数据加载性能。(5)建立简单美观友好的用户界面和进行系统整体功能和性能测试保证软件质量。通过精心设计和不断完善,最后基于分布式数据比对引擎和全文检索技术及ETL应用技术设计出一套大数据云存储及综合应用系统,通过系统部署实施证明,本设计既解决了姓名、地址类型的数据快速检索和数据高效比对,以及海量数据的全文检索问题;又实现了多数据源高频增量加载,降低系统总体投入,提高系统总体性能,实现业务系统的初步整合。
【关键词】:大数据 云存储 分布式检索 数据比对
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333;TP311.52
【目录】:
- 摘要4-6
- ABSTRACT6-15
- 第一章 绪论15-19
- 1.1 研究目的与意义15
- 1.2 国内外研究现状15-16
- 1.3 研究内容16-17
- 1.4 本文的组织结构17-19
- 第二章 相关技术19-23
- 2.1 Hadoop概述19-20
- 2.2 ETL工具Kettle概述20
- 2.3 ElasticSearch分布式全文检索系统特性20-21
- 2.4 Spark介绍21-23
- 第三章 系统分析与设计23-33
- 3.1 数据存储与综合应用需求分析23-24
- 3.1.1 数据存储与综合应用现状23-24
- 3.1.2 主要存在的问题24
- 3.2 数据存储与综合应用需求24-26
- 3.2.1 数据存储需求24
- 3.2.2 业务流程分析24-25
- 3.2.3 功能需求25-26
- 3.2.4 非功能需求26
- 3.3 系统总体设计方案26-33
- 3.3.1 系统总体结构26-27
- 3.3.2 主要功能设计27-28
- 3.3.3 权限控制28-29
- 3.3.4 数据库分布及设计29-30
- 3.3.5 用户界面设计30-33
- 第四章 核心业务技术设计33-49
- 4.1 分布式数据比对引擎技术设计33-41
- 4.1.1 技术原理和路线34-35
- 4.1.2 地址比对设计35-37
- 4.1.3 地址比对算法有效性研究37-38
- 4.1.4 地址比对算法性能研究38-41
- 4.2 分布式全文检索应用设计41-44
- 4.2.1 分布式全文检索应用整体架构42-43
- 4.2.2 分布式全文检索应用的中文分词43-44
- 4.3 ETL应用设计44-49
- 第五章 系统实现49-73
- 5.1 Hadoop的安装与部署49-51
- 5.2 ElasticSearch的安装部署51-52
- 5.3 Spark的安装部署52-53
- 5.4 数据信息比对的实现53-59
- 5.4.1 外部数据源管理53-56
- 5.4.2 业务目标数据源管理56-57
- 5.4.3 数据源分组57-58
- 5.4.4 设置比对规则58-59
- 5.5 全文检索应用的实现59-62
- 5.6 ETL实现62
- 5.7 主要功能和性能指标的测试和验证62-73
- 5.7.1 主要功能测试和验证62-68
- 5.7.2 主要性能测试和验证68-73
- 第六章 结论73-75
- 参考文献75-77
- 致谢77-79
- 作者与导师简介79-80
- 附件80-81
【参考文献】
中国期刊全文数据库 前1条
1 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
,本文编号:895775
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/895775.html