企业级分布式数据集成平台的设计与实现
发布时间:2021-08-05 21:19
现代企业中,数据的分析处理等工作往往需要大量的数据抽取、转换和加载(Extract,Transform and Load,ETL)等工作,ETL是数据集成的一种主要解决方案。本论文来源于公司的实际研发项目,由于企业现有的ETL系统存在单机宕机和功能复杂的问题,为解决ETL作业中的宕机和难以使用的问题,本文设计实现一个ETL的数据集成系统,将企业内部各种应用数据集成到一起,供数据分析使用;数据分析的结果,也通过本系统以接口的方式对外提供服务。在ETL数据处理的过程中,面临着数据源多样性、数据的不规范和任务执行过程中的系统稳定性等问题,本文采用分布式架构的设计理念,将系统分成三个基础服务;利用Spark平台的大数据处理能力,Kafka的异步解耦能力及搜索引擎ES的数据查询能力,对ETL作业过程进行了异步解耦,优化数据抽取方案,解决数据处理难题,实现了一个具有可扩展性的分布式ETL数据集成平台。其主要工作内容如下:(1)需求分析与架构设计:对ETL作业作了需求分析,并进行了分布式架构设计;考虑到服务生命周期的不一致,将系统解耦为三个基础服务,详细阐述了解耦的原理及三个服务间的关系;(2)三大...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:109 页
【学位级别】:硕士
【部分图文】:
配置中心原理图
可重试网关设计
消息中间件原理图
【参考文献】:
期刊论文
[1]关于企业信息系统灾备中心建设方案探讨[J]. 周琦. 中国管理信息化. 2018(23)
[2]卡尔曼滤波在四轴飞行器导航中的应用[J]. 徐华中,余飞,何家俊. 武汉理工大学学报(信息与管理工程版). 2012(03)
[3]基于DataStage的异构数据转换的研究与实现[J]. 苏健伟. 中国新技术新产品. 2009(04)
[4]基于MAS的分布式ETL模型[J]. 徐艳华,郭朝珍. 郑州大学学报(理学版). 2007(04)
本文编号:3324476
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:109 页
【学位级别】:硕士
【部分图文】:
配置中心原理图
可重试网关设计
消息中间件原理图
【参考文献】:
期刊论文
[1]关于企业信息系统灾备中心建设方案探讨[J]. 周琦. 中国管理信息化. 2018(23)
[2]卡尔曼滤波在四轴飞行器导航中的应用[J]. 徐华中,余飞,何家俊. 武汉理工大学学报(信息与管理工程版). 2012(03)
[3]基于DataStage的异构数据转换的研究与实现[J]. 苏健伟. 中国新技术新产品. 2009(04)
[4]基于MAS的分布式ETL模型[J]. 徐艳华,郭朝珍. 郑州大学学报(理学版). 2007(04)
本文编号:3324476
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3324476.html