数据质量管理与数据清洗技术的研究与应用
本文关键词:数据质量管理与数据清洗技术的研究与应用,由笔耕文化传播整理发布。
数据质量管理与数据清洗技术的研究与应用
CAJ全文下载
分享到:
作 者: 陈孟婕
来 源: 北京邮电大学 2013年
摘 要: 公司的竞争实力已经从有形的产品转变为无形的信息。数据是信息的载体,当挖掘其中有价值的信息或者将其应用于某个领域时,数据质量都应该作为基本的需求得到保证。然而,数据往往存在一些质量问题,例如不完整、不一致、冗余、冲突、错误等,这些问题不仅影响了人们对信息的判断,甚至直接造成经济损失。清除坏数据、提高数据质量,对于应用服务、系统架构以及项目运维具有重要的现实意义。本论文选题来源于“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”项目,主要解决项目中的健康检查数据的质量问题,为项目提供数据质量管理方案并设计清洗工具,使管理者掌握数据质量情况并能够对其进行有效控制,达到提高数据质量的目标。 论文的研究工作主要体现在以下几方面:1.调查国内外数据质量研究现状、取得的研究成果以及相关国际标准,从数据质量定义、数据质量管理方法及模型、数据质量评估等理解数据质量问题,对不同需求的质量工具进行分类总结。2.数据清洗技术是数据质量控制的基本方法,其实现原理是对不同类型的缺陷数据运用统计学方法、数据挖掘算法、语义分析技术等进行数据修正,研究并总结了常用的清洗算法,包括异常记录检测和重复记录检测两大类。3.研究并借鉴成熟的六西格玛质量管理理论,结合项目业务需求及数据特点,设计了面向健康检查项目的质量管理流程及质量管理框架,将质量问题化解为业务流程控制问题。4.在质量工程总体设计阶段,分析项目中数据特征,分析数据模式中的数据关联关系,划分业务流程并识别质量问题,定义质量工程需求,并运用数据清洗原理,制定了符合业务需求的数据清洗策略。5.在研究的基础上,总结项目开发过程中数据质量处理经验,基于原有清洗工具设计了数据质量管理功能,在业务逻辑层设计了缺陷数据的识别以及处理流程,并在测试数据集上实施质量工程,从而实现了数据质量的提高。 论文的主要贡献是,提出了一种基于数据模式的数据质量管理方法,建立质量管理流程与质量管理模型,在业务环节、数据模型中建立数据的对应关系,识别质量问题,并运用清洗技术处理不一致的数据。通过实验研究表明,本文提出的模式层次数据清洗方案能够有效识别以及控制数据质量。
关 键 词:
学位级别: 硕士
所属学科馆:
信息科技馆
计算机软件及计算机应用馆
数据库类型:
目 录
摘要
4-6
ABSTRACT
6-10
第一章 绪论
10-16
1.1 课题研究背景与意义
10-11
1.1.1 论文背景及问题提出
10-11
1.1.2 研究意义
11
1.2 国内外研究现状
11-13
1.3 硕士期间主要工作
13-14
1.4 论文目标与组织结构
14-16
第二章 数据质量管理研究
16-23
2.1 数据质量
16-18
2.1.1 数据质量起源
16
2.1.2 数据质量解释
16-17
2.1.3 数据质量度量
17-18
2.2 数据质量管理框架
18-20
2.2.1 数据质量管理基本措施
18-19
2.2.2 数据质量管理与控制模型研究
19-20
2.3 数据质量评估算法及模型
20
2.4 数据质量工具
20-21
2.5 本章小结
21-23
第三章 清洗技术及数据质量领域的应用
23-26
3.1 清洗技术介绍
23-24
3.1.1 数据清洗技术
23
3.1.2 数据清洗分类
23-24
3.2 数据清洗常用算法
24
3.3 清洗技术在数据质量领域的应用
24-25
3.4 本章小结
25-26
第四章 面向生殖健康服务的数据质量管理框架
26-31
4.1 六西格玛质量管理工程
26-27
4.2 数据质量工程实施流程
27-30
4.2.1 工程实施流程
27-29
4.2.2 面向生殖健康服务的数据质量框架
29-30
4.3 本章小结
30-31
第五章 质量管理系统设计与实现
31-60
5.1 信息系统设计原则
31-32
5.2 需求定义和分析
32-39
5.2.1 质量工程需求定义
32-33
5.2.2 业务子系统及决策支持管理系统现状分析
33-39
5.3 质量工具总体设计
39-50
5.3.1 总体设计思路
39-42
5.3.2 识别数据质量问题
42-48
5.3.3 数据质量问题解决方案
48-50
5.4 质量工程实施
50-58
5.4.1 XML配置文件及数据接口
50-51
5.4.2 逻辑控制层
51-57
5.4.3 用户接口业务流程设计
57-58
5.4.4 实验结果分析
58
5.5 本章小结
58-60
第六章 总结与展望
60-62
6.1 论文总结
60
6.2 下一步工作
60-62
参考文献
62-65
致谢
65-66
攻读学位期间发表的学术成果
66
中国学术期刊网络出版总库[1] 李志辉;;ETL实施的数据质量问题研究[J];电脑知识与技术;2006年26期[2] 阮喜珍;;六西格码与ISO9000的“兼容”[J];中国管理信息化(综合版);2007年08期[3] 胡桂华;;国外人口普查质量评估方法综述[J];调研世界;2011年11期[4] 王学良;商广娟;;多指标的数据质量评价方法综述[J];航空标准化与质量;2007年06期[5] 周东山;李喜英;;数据仓库建设中数据质量问题的研究[J];华南金融电脑;2007年07期[6] 叶鸥;张璟;李军怀;;中文数据清洗研究综述[J];计算机工程与应用;2012年14期[7] 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期[8] 徐俊刚;裴莹;;数据ETL研究综述[J];计算机科学;2011年04期[9] 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期[10] 王和勇;吕威;陈冰川;;基于加速度趋势比较的异常数据清洗研究[J];计算机应用与软件;2010年08期 中国硕士学位论文全文数据库[1] 张兴华;数据清洗方法在电力企业数据中心的应用研究[D];兰州理工大学;2011年[2] 徐壮;M公司精益六西格玛运作管理体系设计[D];天津大学;2007年[3] 张联超;基于本体的数据清洗系统框架研究[D];南京航空航天大学;2008年[4] 袁小冬;基于关联规则的临床行为异常检测的应用研究[D];江苏大学;2010年
本文关键词:数据质量管理与数据清洗技术的研究与应用,由笔耕文化传播整理发布。
,本文编号:57781
本文链接:https://www.wllwen.com/guanlilunwen/zhiliangguanli/57781.html