当前位置:主页 > 管理论文 > 组织管理论文 >

基于ETL的科技管理数据集成技术研究

发布时间:2020-07-14 00:11
【摘要】:在互联网技术高速发展的背景下,随着信息化在各行业内部深入建设,数据所扮演的角色变得越来越重要。数据所蕴含的价值也需要被深度挖掘和共享。需要将分散的异构数据进行统一集成,形成一套统一管理的数据共享平台。通过将各个分散应用下的数据进行集成,能够实现数据之间的价值共享。ETL(Extract-Transform-Load)是一种支撑数据集成相关业务很好的解决方案,成为近年来的研究热点。基于科技管理数据集成业务背景下,论文研究了基于ETL的科技管理数据集成技术。科技管理数据分布在各个阶段,不同阶段的数据由不同的部门进行维护,存储格式及语义上存在着很大的差别,为了规范数据存储,简化数据推送,需要对科技管理数据进行统一全流程存储。但在科技管理数据集成过程中遇到了以下问题:1、科技管理数据复杂多样,数据集成过程中的数据质量难以保障,常常会造成数据缺失、存储格式不一致等现象发生,因此需提供有效的技术方案来保障科技管理数据集成后的数据质量。2、在保障数据质量的基础上,现有的ETL任务脚本调度方案效率较低、核心业务数据更新慢,难以适应大数据环境下的数据集成需求。因此需选择合理的任务调度方案来对ETL任务脚本进行有效的调度,以提高资源利用率、数据集成效率。为了解决上述问题,首先,本文设计了一套科技管理数据仓库架构,通过层次结构,能够清晰的描绘数据的流向及数据应用场景,并且可以规范统一存储科技管理数据。其次,在传统数据集成模型的基础上设计了基于元模型控制的数据集成模型,并提出了相应的元数据描述和映射规则来辅助数据集成。通过抽取、转换、加载元模型与映射规则的结合,完善了数据集成模型,并开发了相应的元数据管理工具和映射解析器。并将数据质量保障的方法嵌入到数据集成脚本中。经过实验验证分析,此模型和相应的映射算法能够有效的保障数据集成后的数据质量。然后,设计了分布式ETL任务调度框架和一体化调度算法。该框架分为ETL任务预处理、ETL任务调度分配、ETL任务执行三个阶段。一体化调度算法是三个阶段算法的概括描述。经过实验验证分析,该框架和算法能够完善ETL任务调度分配与执行过程,提高了分布式环境资源利用率,提升了数据集成效率。最后,本文还实现了一套面向科技管理数据的ETL任务构建与调度系统,将本文所涉及的模型框架和算法应用到该系统下。目前系统已经过多轮测试,并己在国家某部委的科技管理系统中进行应用与验证,己承担了多批量的数据集成业务。能够高效稳定的完成数据集成工作。
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13
【图文】:

架构图,模式模型,数据仓库,架构


逡逑图2-3中间件模式模型架构图逡逑2.3.3数据仓库模式模型逡逑数据仓库[35]是近年来在数据领域最常见的一个名词与技术,仓库通常描述为逡逑存放东西的载体,在数据领域,就是具体统一存储数据的仓库。但数据仓库也有逡逑别于数据库,数据仓库具有面向主题的、集成的、非易失性的、与时间关联的特逡逑征,能够为企业、部门提供决策支持的数据集合。模型架构如图2-4所示。数据逡逑仓库模型是具有多层次的架构模型,通常包含数据采集、数据加工处理、数据存逡逑储、数据分析等,数据仓库模式是对分散的异构数据源进行集成统一存储,从而逡逑提供一份高质量、高标准的数据集合,以供企业、部门分析决策。逡逑■—■邋1逦、逡逑数据源入逡逑:1邋据If逡逑数据源邋NB逡逑^逦逡逑图2-4数据仓库模式模型架构图逡逑2.4元数据逡逑元数据(Metadata)是描述数据的数据(data邋about邋data)%

架构图,模式模型,中间件,架构


存放东西的载体,在数据领域,就是具体统一存储数据的仓库。但数据仓库也有逡逑别于数据库,数据仓库具有面向主题的、集成的、非易失性的、与时间关联的特逡逑征,能够为企业、部门提供决策支持的数据集合。模型架构如图2-4所示。数据逡逑仓库模型是具有多层次的架构模型,通常包含数据采集、数据加工处理、数据存逡逑储、数据分析等,数据仓库模式是对分散的异构数据源进行集成统一存储,从而逡逑提供一份高质量、高标准的数据集合,以供企业、部门分析决策。逡逑■—■邋1逦、逡逑数据源入逡逑:1邋据If逡逑数据源邋NB逡逑^逦逡逑图2-4数据仓库模式模型架构图逡逑2.4元数据逡逑元数据(Metadata)是描述数据的数据(data邋about邋data)%,或者说是用于提逡逑供某种数据信息资源的结构化数据(structured邋data)。逡逑8逡逑

架构,工具,脚本,环境


集成的需求,作业则是由转换组成。Kettle也具有相应的组件以满足大数据环境逡逑下的数据集成迁移需求。Kettle的开发部署架构主要包括开发环境、作业存储、逡逑生产环境三大类。架构如图2-5所示。Kettle的开发环境是由Spoon进行转换和逡逑作业脚本的开发。并将作业脚本存储到资源库或者文件库中。由Kitchen、Pan逡逑进行作业脚本的任务调度,该调度可应用于操作系统级的调度,并可由Carte创逡逑建虚拟服务器来构建分布式运行环境,用于转换或作业的远程执行。逡逑13逡逑

【相似文献】

相关期刊论文 前10条

1 谢子秋;唐锦辉;李刚;夏海朋;周宇;孙熹;柳燕杰;蒋海泥;;医疗质量管理系统全数据集成[J];中国数字医学;2017年05期

2 华昒;;数据集成:二、数据集成101[J];中国仪器仪表;2016年10期

3 吴钰峰;;云计算数据集成与服务系统的构建[J];数码世界;2016年12期

4 韩蕊;;大数据呼唤数据集成新思维[J];互联网周刊;2013年22期

5 褚鸿君;;数据联邦促进企业数据集成[J];软件世界;2008年01期

6 周冰;;调查显示:数据集成获中国企业认同[J];信息化纵横;2008年08期

7 董峰;李晋宏;;企业数据集成综述[J];中国金属通报;2008年42期

8 陈默;;Sybase推出新款软件[J];计算机与网络;1998年06期

9 王拓,王伟;CIMS的数据集成[J];计算机研究与发展;1994年01期

10 ;数据集成将成大数据新浪潮[J];中小学信息技术教育;2013年11期

相关会议论文 前10条

1 路辉;;基于数据集成与共享构建系统[A];物联网与电力新技术——2014年云南电力技术论坛论文集[C];2014年

2 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

3 李宗华;肖道纲;彭明军;;数字武汉空间基础数据集成建库及应用[A];坚持科学发展观 推进自主创新 促进国家创新型城市建设——武汉市第二届学术年会论文集[C];2006年

4 乔慧捷;赵海军;纪力强;;生物多样性数据集成模式初探[A];第五届全国生物多样性保护与持续利用研讨会论文摘要集[C];2002年

5 李宗华;彭明军;;规划国土资源管理空间数据集成应用与运行机制探讨[A];2004城市规划年会论文集(下)[C];2004年

6 曾惠兰;曾松峰;廖斌;;柔性数据集成助推坚强智能电网[A];2009电力行业信息化年会论文集[C];2009年

7 叶群峰;;基于SOA的企业数据集成交换的研究与实践[A];中国烟草学会2014年学术年会入选论文摘要汇编[C];2014年

8 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 刘跃军;艾鸿;刘国华;;数据集成中的XML查询重写[A];2005年全国理论计算机科学学术年会论文集[C];2005年

10 陆新建;王建新;田双昌;;新一代流程工业生产实时数据集成方案[A];2009中国过程系统工程年会暨中国mes年会论文集[C];2009年

相关重要报纸文章 前10条

1 Ronald van Loon;大数据的未来掌控于数据集成[N];中国信息化周报;2017年

2 佚名;现代数据集成很重要[N];中国信息化周报;2017年

3 本报记者 王若曦;数据集成分析 能源互补协调[N];中国电力报;2017年

4 浙江义乌市局(分公司) 陈兵来;数据集成让决策更科学[N];东方烟草报;2014年

5 吕梁市煤炭设计研究院 张萍;浅析数据集成环境下煤炭企业管理信息系统的构建[N];吕梁日报;2012年

6 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年

7 本报记者 于翔;数据集成开启云征程[N];网络世界;2010年

8 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年

9 通讯员 张一龙 本报记者 祁文运;标准线牵引标准化建设[N];国家电网报;2008年

10 ;SaaS需要数据集成[N];网络世界;2007年

相关博士学位论文 前10条

1 刘强;基于云计算的BIM数据集成与管理技术研究[D];清华大学;2017年

2 吴月超;面向智能水电站的监测数据集成及运行分析研究与实践[D];华中科技大学;2018年

3 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年

4 曹顺良;生物学数据集成若干关键问题研究[D];复旦大学;2005年

5 孟永胜;装备制造业产品制造数据集成管理研究与应用[D];大连理工大学;2006年

6 王学军;基于GIS的石油勘探开发数据集成管理技术研究[D];中国地质大学(北京);2017年

7 鄂新华;面向服务的数据集成若干关键技术研究[D];北京邮电大学;2015年

8 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年

9 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年

10 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年

相关硕士学位论文 前10条

1 徐晨阳;基于ETL的科技管理数据集成技术研究[D];北方工业大学;2019年

2 徐强;GIS领域多源异构数据集成的普适性处理框架研究[D];陕西师范大学;2018年

3 任岱榕;非法集资数据集成与共享平台的设计与实现[D];北京交通大学;2018年

4 吴岳臻;基于金税三期数据集成的税务动态监控系统的设计与实现[D];山东大学;2018年

5 张建国;基于Spark的流数据集成分类方法研究及应用[D];齐鲁工业大学;2018年

6 李渴;基于BIM的道路数据集成与开发[D];东南大学;2018年

7 刘寒啸;易天数据管理系统数据集成和数据分析模块的设计与实现[D];南京大学;2018年

8 张福麟;面向异构大数据集成的实体识别技术研究[D];北京邮电大学;2018年

9 李磊;基于ETL的数据集成及交换系统的实现与优化[D];北方工业大学;2018年

10 李磊;人员数据集成管理平台的设计与实现[D];北京交通大学;2017年



本文编号:2754180

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/2754180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b9156***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com