当前位置:主页 > 管理论文 > 行政管理论文 >

大数据仓库数据模型在电子政务中的应用研究

发布时间:2022-01-15 20:36
  大数据时代,数据引擎已成为组织服务创新、经济社会发展和国家治理能力现代化的核心驱动力,构建大数据驱动的政务新平台,成为电子政务发展的重要内容。基于关系型数据库系统的传统数据仓库在存储、加工及分析规模庞大、种类繁多的数据方面存在局限性,电子政务领域数据归集遇到数据质量问题,导致数据可信度差,影响数据共享和大数据辅助决策分析,亟需通过大数据仓库数据建模实现对数据有效管理和治理。数据集成于大数据仓库,针对大数据体量庞大的特点,在多数场景下不可能每次都采集全部数据,海量数据增量采集被广泛关注。本文从大数据仓库的数据模型分层、数据治理模型和数据增量采集三个方面,研究探讨了大数据仓库数据模型及在电子政务中的应用。第一,依据Kimball提出的数据仓库维度建模理论,基于Hadoop的Hive数据仓库,给出大数据仓库数据模型的分层架构。架构整体分为数据缓冲层(STG)、操作数据层(ODS)、公共数据层(PDW)和数据应用层(ADM)。结合数据分层和命名规则,设计实现大数据仓库分层的数据模型,在电子政务中应用大数据仓库分层架构,发挥大数据辅助科学决策和精准施策。第二,针对政府部门归集数据遇到的数据质量低... 

【文章来源】:郑州大学河南省 211工程院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

大数据仓库数据模型在电子政务中的应用研究


泛在海量数据持续增长

路线图,路线图,平台,大数


1绪论41.2研究现状美国国家标准与技术研究院大数据工作组在《大数据互操作框架第1卷:定义》(BigDataInteroperabilityFramework:Volume1,Definitions)提出关于大数据的定义:大数据是指那些传统数据架构无法有效处理的新数据集。因此需要采用新的架构来高效完成数据处理,这些数据集特征包括:容量、数据类型多样性、多个领域数据的差异性、数据的动态性[6]。在数据架构上,传统的数据仓库整体架构围绕关系型数据库设计,如:基于ORACLE数据库进行数据的存储、处理和分析,但关系型数据库提供的函数多基于单数据库实例设计,无法在集群上并行执行,不适合大数据的处理及分析,且多数情况下,数据的计算和分析依赖于移动数据的方式。此种架构在“小数据”运行良好,对大数据量和新的分析需求,遇到了前所未有的困难:其性能TB级或许可接受,但对于PB级的大数据,查询执行时间可能会增加几个数量级[7][8]。由于移动计算比移动数据代价要低,关系型数据库依赖于数据移动的计算模式会导致性能低下[2],难以满足海量数据采集、存储及加工处理的需要。基于Hadoop技术的Hive是新一代的数据仓库系统[9],具有Hadoop架构体系低成本、高性能、高容错和水平扩展等特性,Hive基于MapReduce分布式离线计算进行数据处理,HiveonSpark是用Spark取代MapReduce作为Hive的计算引擎,将Hive数据处理作为Spark任务提交到Spark集群进行计算,HiveonMapReduce与HiveonSpark混合使用,可以满足批量处理、即席查询等不同计图1.32018-2022年全国一体化在线服务平台工作路线图

架构图,关系型,数据仓库,大数


2大数据仓库技术基础82大数据仓库技术基础大数据仓库技术在电子政务领域发挥着重要的作用,本章首先介绍数据模型设计七个原则以及数据仓库在电子政务中应用。然后分析Hadoop平台架构体系和Hive分布式数据仓库,并对大数据仓库的分层架构进行探讨。最后给出在电子政务中支撑大数据仓库的数据集成技术,包括政务数据同步规范和政务数据采集方式。2.1数据仓库技术BillInmon在1991年出版的《BuildingtheDataWarehouse》书中提出:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)[23]。传统数据仓库一般采用关系型数据库系统构建,是ETL(抽取Extract、转换Transform、加载Load)工具、关系型数据库和BI(商务智能BusinessIntelligence)工具的集成,以关系数据库管理系统为核心,使用ETL工具对数据进行迁移,利用BI工具对数据进行查询分析[24]。图2.1关系型数据仓库架构图

【参考文献】:
期刊论文
[1]2019中国大数据产业发展白皮书[J]. 孙会峰.  互联网经济. 2019(Z2)
[2]基于Hive的高可用双引擎数据仓库[J]. 李翀,张彤彤,杜伟静,刘学敏.  计算机系统应用. 2019(09)
[3]数据治理技术[J]. 吴信东,董丙冰,堵新政,杨威.  软件学报. 2019(09)
[4]数据整理——大数据治理的关键技术[J]. 杜小勇,陈跃国,范举,卢卫.  大数据. 2019(03)
[5]大数据治理标准体系研究[J]. 代红,张群,尹卓.  大数据. 2019(03)
[6]政务大数据环境下的数据治理框架设计[J]. 吴善鹏,李萍,张志飞.  电子政务. 2019(02)
[7]大数据管理系统的历史、现状与未来[J]. 杜小勇,卢卫,张峰.  软件学报. 2019(01)
[8]基于人工智能技术的大数据分析方法研究进展[J]. 王万良,张兆娟,高楠,赵燕伟.  计算机集成制造系统. 2019(03)
[9]政府大数据治理规则体系构建研究构想[J]. 安小米,宋懿,郭明军,白献阳.  图书情报工作. 2018(09)
[10]地方政府大数据治理:行动、挑战与应对[J]. 丁辉侠.  郑州大学学报(哲学社会科学版). 2018(01)



本文编号:3591280

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/zhengwuguanli/3591280.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e76a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com