当前位置:主页 > 管理论文 > 质量管理论文 >

大数据综述英文文章_国外数据质量管理研究综述

发布时间:2016-10-16 09:38

  本文关键词:国外数据质量管理研究综述,由笔耕文化传播整理发布。


当前位置:首页 >> 生产/经营管理 >> 国外数据质量管理研究综述


Journal of Informat ion No . 2 , 2007  

              情报杂志 2007 年第 2 期

国外数据质量管理研究综述
Reviews of Foreign Studies on Data Quality Management

宋  敏1 , 2   覃

  正1
( 1. 西安交通大学 管理学院  西安  710049 ;2 .陕西省国家税务局  西安  710068) 摘  要  对国外近十年数据质量管理研究进行总结和评析 , 包括数据质量定义 、质量维度识别 、数据产品制造过程 、质 量测量和评估 、数据质量管理体系等 。 在此基础上 提出数据质量管理进一步的研究方向 。 关键词  数据产品  数据质量  质量管理  质量管理体系  数据产品制造过程
  数据( data) 是为反映客观世界而记录下来的可以鉴别的数字 或符号 , 如数字 、文字 、图形 、图像 、声音等 。 随着信息技术应用的不 断普及 , 信息系统中数据质量问题受到越来越多的关注 , 特别是统 计 、管理和计算机等领域 。 数据质量问题的研究 , 在统计领域始于 1960 年代末期 , 管理领域始于 1980 年代初 , 计算机领域始于 1990 年代初[ 1] 。 本文对国外近十年管理领域的数据质量研究进行总结 和评述 , 并提出进一步的研究方向 。 1  数据质量的定义和维度 从 20 世纪 50 年代开始 , 人们从不同的角度定义质量[ 2 ~ 3 ] 。 基 本上可以分为五种 : 基于消费者的 , 基于制造的 , 基于产品的 , 基于 价值的 , 先验的 。 比较流行的定义有 : 质量是一组固有特性满足要 求的程度[ 4] ; 质量是使 用的适合 性[ 5] ; 质量 意指对要 求的符 合 性
[ 6]

特征包括 : 时间行为 , 资源行为 。 合用性特征包括 : 可理解性 , 可学 习性 , 可操作性 , 乐趣 , 清晰性 , 帮助性 , 直率性 , 习俗化 , 用户友好 。 维护特征包括 : 可分析性 , 可改变性 , 稳定性 , 可测试性 , 可管理性 , 可复用性 。 可移植性特征包括 : 适应性 , 一致性 , 可替代性 , 可安装 性。 文献[ 1 1] 提出 6 个 Web 数据质量标准 , 包括 : 权威 , 正确性 , 客 观性 , 流通 , 定位 , 导向 。 文献[ 12] 在文献[ 7] 的基础上 , 采用调查方法得到 Web 数据质 量维度 。 固有质量指正确性和内容错误 , 包括 : 准确性 , 可用性 , 相 关超级链接 。 语境质量指提供作者信息 。 表达质量包括 : 组织 , 视 觉效果 , 版面特点 , 一致性 , 活泼有吸引力 , 内容混乱 。 可访问性质 量指提供导航工具 。 文献[ 13] 以符号学为基础 , 建立 4 个符号学层次共 11 个质量 维度 。 句法层次的维度是良好定义或者正规的句法 。 语义层次的 维度包括 : 易理解 , 明确 , 有意味 , 恰当 。 语用层次的维度包括 : 适 时 , 简明 , 易于访问 , 声誉好 。 社会层次的维度包括 : 获知 , 明白差 异 。 每个维度都有具体的改进策略 。 文献[ 14] 给出 3 类共 22 个评估标准 。 主观类包括 : 可信性 , 简 明表达 , 可解释性 , 相关性 , 声誉 , 可理解性 , 增值 。 客观类包括 : 完 全性 , 客户支持 , 文档 , 客观性 , 价格 , 可靠性 , 安全 , 适时性 , 可验证 性 。 过程类包括 : 精确性 , 数据量 , 可用性 , 表达一致性 , 等待时间 , 响应时间 。 对每个标准有特定的评估方法 。 文献[ 1 5] 识别出 5 类 28 个数据质量维度 。 人类工程学质量类 维度包括 : 易于导航 , 舒适性 , 可学习性 , 视觉信号 , 音频信号 。 可访 问性质量类维度包括 : 技术访问 , 系统可用性 , 技术安全 , 数据可访 问性 , 数据共享 , 数据可转换性 。 处理质量类维度包括 : 可控性 , 容 错 , 适应性 , 系统反馈 , 效率 , 响应 。 语境质量类维度包括 : 增值 , 相 关性 , 适时性 , 完全性 , 适当的数据 。 表达质量类维度包括 : 可解释 性 , 一致性 , 简明性 , 结构 , 可读性 , 对照 。 文献[ 16] 给出 6 个 Web 数据检索的质量度量 , 包括 : 流通 , 可 用性 , 信噪比 , 权威 , 流行 , 内聚性 。 文献[ 1 7] 给出 2 种 4 类共 16 个 Web 数据质量维度 , 包括 : 理 解 , 正确 , 清晰 , 适用 , 简明 , 一致 , 恰当 , 流通 , 方便 , 适时 , 可追溯 , 交 互 , 可访问 , 安全 , 可维护 , 快捷 。



在许多文献中 , 数据质量 DQ( Data Quality) 与信息质量 IQ( In form ation Quality) 两个术语通用 , 定义多种多样 。 文献[ 7] 将数据质 量定义为“ 使用的适合性” , 此定义的基础是当时全面质量管理中广 泛接受的质量概念 , 因此关于数据质量的这个定义也被广泛接受 。 文献[ 8] 将数据质量定义为“ 一个信息系统表达的数据视图与客观 世界同一数据的距离” 。 有些文献将 DQ 直接定义为一组属性( 特 征) , 如正确性 、适时性 、完全性 、一致性和相关性等 。 采用文献[ 7] 的定义 , 数据质量判断依赖于使用数据的个体 , 不 同环境下不同人员的“ 使用的适合性” 不同 , 数据质量是相对的 , 不 能独立于使用数据的消费者来评价数据质量
[ 9]

。 因此 , 识别数据质

量维度成为有价值的研究工作 。 数据质量维度是一组表达数据质 量构成或者数据质量单一方面的数据质量属性[ 7 ] 。 文献[ 7] 采取二阶段调查方法识别出 4 类共 1 5 个数据质量维 度 。 固有质量包括 : 正确性( 没有错误), 客观性 , 可信性 , 声誉 。 可 访问性质量包括 : 可访问性 , 访问安全 。 语境质量包括 : 相关性 , 增 值性 , 及时性 , 全面性 , 数据量 。 表达质量包括 : 可解释性 , 易理解 性 , 简明性 , 一致性 。 文献[ 10] 识别出 6 个 Web 数据数据特征共 32 个子特征 。 功 能性特征包括 : 适宜性 , 正确性 , 互用性 , 灵活性 , 安全 , 可追溯性 。 可靠性特征包括 : 成熟度 , 可恢复性 , 可用性 , 可降解性 , 容错 。 效率
基金项目 : 国家自然科学基金资助项目( 编号 : 70471037) 。

作者简介 : 宋  敏 , 男 , 1961 年生 , 博士研究生 , 陕西省国家税务局信息中心主任 , 研究方向为可复 用系统 、管理信息 系统 、业务建模 ; 覃  正 , 男 , 1958 年生 , 教授 , 博士生导师 , 研究方向为电子政务 、 距离管理 、业务构件 。

7

情报杂志 2007 年第 2 期                    Journal of Information No . 2 , 2007
文献[ 18] 对包括上述 9 个数据质量维度方案在内的 1 2 个方案 进行了分析和评述 , 12 个方案中有 3 个是引用另外两个的成果 。 文献[ 19] 对包括文献[ 18] 的 12 个方案在内的 13 个方案进行分析 和评述 。 美国国家统计 科学研 究所( N IS S) 关于 数据质量 的研究 表 明[ 20 ] : a. 数据是产品 。 b . 作为产品 , 数据有质量 , 这个质量来自产 生数据的过程 。 c . 数据质量原则上可以测量和改进 。 d . 数据质量 的重要性正在增加 , 但不平衡 。 e . 在大学里 , 实质上不存在数据质 量作为一个重要研究领域的认识 。 f . 数据质量与环境有关 。 g . 数 据质量是多维度的 。 h . 数据质量是多尺度的 。 i . 人的因素是核心 。 从上述数据质量维度方案可以看出 , 现有方案较多地涉及 Web 数据质量 。 尽管有些维度的重要性得到广泛认同 , 由于数据质量依 赖使用数据的个体 , 无论是研究人员还是数据质量的从业人员都未 对数据质量维度集形成共识 。 同一词汇在不同的维度方案中的语 义不完全相同 , 这点在文献[ 1 8] 和[ 19] 对维度频次的统计差异可以 看出 。 由于管理学强调环境和个体差异 , 作者认为没有必要( 似乎 也不可能) 建立一套广泛接受的完整的数据质量维度 。 因此 , 在特 定的背景中识别数据质量维度是有价值的 。 识别出来的数据质量 维度得到认同的程度 , 依赖于识别的方法和过程 。 2  数据产品制造过程 文献[ 21] 和[ 22] 利用信息系统环境和制造环境的相似性 , 建立 起数据产品与物质产品的联系 。 原始数据对应原材料 , 数据加工对 应材料加工 , 数据产品对应物质产品 。 这样 , 全面质量管理( T QM ) 的原则 、方法 、指南和技术就可以用于数据质量管理 。 在数据产品 制造环境中有四种角色 : 数据提供者 , 数据生产者 , 数据消费者 , 数 据管理者 。 过程是一组将输入转化为输出的相互关联或相互作用的活动 。 过程方法和过程的系统方法是质量管理的基本原则[ 3] 。 确定数据 质量相关的过程是质量管理的重要任务之一 。 由于数据是由信息 系统加工的 , 计算机科学技术领域现有的信息系统建模方法可以用 于数据质量相关过程的识别 , 如数据流图( DFD) 、实体 -关系( ER) 图和面向对象模型等 。 但是这些方法缺乏系统地描述数据制造 过程的能力 , 同时缺乏用来清楚地表达制造细节的构件 。 因此 , 人 们试图设计更加适合数据质量测量和改进的数据制造系统建模方 法。 文献[ 23] 给出的数据制造系统模型 , 通过建立表达数据单元和 系统构件关联关系的数据制造系统分析矩阵 , 系统地追踪数据产品 相关属性 , 这些属性的测量值可以用于数据制造系统的改进 。 文献[ 24] 给出一种称为 IP -M AP( Inform ation P roduct Map) 的 数据制造系统建模方法 。 IP -MAP 包括 8 种组装块 : 源( 原始输入 数据) 块 , 消费者( 输出) 块 , 数据质量块 , 加工块 , 数据存储块 , 决策 块 , 业务边界块 , 信息系统边界块 。 采用自顶向下的设计方法得到 的 IP -MAP 可以使数据管理者看见数据产品制造中的最重要环 节 , 识别影响数据质量的关键环节 , 确认数据制造系统的瓶颈 。 IP -MAP 不仅能帮助识别过程拥有者 , 还能帮助实现质量的源头控 制 , 在数据制造过程的不同阶段用适当的质量维度进行产品质量测 量。 计算机科学技术领域的信息系统建模方法 , 主要目的是系统分 析 。 文献[ 23] 和[ 24] 的模型主要针对投入运行后信息系统中数据 质量管理问题 。 事实上 , 数据质量不仅依赖信息系统的运行维护 , 还依赖信息系统的分析 、设计和实现 。 因此 , 开发适用于信息系统 从分析设计到运行维护全过程的 、适合数据质量管理的信息系统模
图 1  数据质量建模过程

型 , 不仅可以从整体上考虑信息系统开发的数据质量和运行的数据 质量 , 还可以降低解决系统开发和运行过程中数据质量问题的总体 成本 。 3  数据质量的测量和评估  3 . 1  数据质量要求  数据质量要求是为使用户获得特定质量数 据而需要附加在数据上或者在数据文档中列明的指标[ 25] , 它是检 验质量的标准 。 文献[ 25] 在几个基本概念的基础上 , 系统地论述了 建立数据质量要求的方法和步骤 。 数据质量参数( 简称质量参数) 是用户评价数据质量定性的或者主观的维度 , 如来源可信 、适时等 。 数据质量指标( 简称质量指标) 是提供数据客观信息的数据维度 , 如 来源 、创建时间 、收集方式等 。 建立数据质量要求的过程如图 1 所示 , 共 4 个步骤 : a. 建立应 用视图 。 输入是应用需求 , 输出是应用视图 。 b . 确定质量参数 。 输 入是应用视图 、应用质量要求和侯选质量属性 , 输出是参数视图( 附 加在应用视图上的质量参数) 。 c. 确定质量指标 。 输入是参数视 图 , 输出是质量视图( 包含质量指标的应用视图) 。 d. 质量视图集成 和应用视图求精 。 输入是质量视图 , 输出是集成的质量计划 。

 3 . 2  数据质量测量和评估  文献[ 26] 和[ 27] 的数据质量评估方 法称为 AIMQ , 它由 3 个部分组成 。 一是 2 ×2 的 PS P/ IQ 模型( 见 表 1) 。 行决定于将数据看成产品还是服务 , 列决定于评估是依据 正规的质量规范还是消费者期望 , 这样将文献[ 7] 的 15 个质量维度 中除增值性以外的维度 , 加上易操作性维度分成 4 类 。 二是 IQA 工具 , 是一套测量数据质量的调查问卷 。 三是质量差距分析技术 。
表 1  PSA / IQ 模型 规格符合性 产品 质量 服务 质量 完好的信息( 没有 错误 , 简 明性 , 全面性 , 一致性) 可靠的信息( 及时 性 , 安全 性) 满足或者超过消费者期望 有用的信息( 数据量 , 可解释性 , 易理解性 , 相关性 , 客观性) 可用的信息( 可信性 , 可访问性 , 易操作 , 声誉)

  文献[ 28] 提出一种在组织内部测量数据质量的方法 。 首先建 立数据质量标准列表 , 标准分为直接评估标准和间接评估标准 。 直 接评估标准的评估采用传统的软件测量方法 , 即问卷调查方式 。 而 间接评估标准的分数由直接评估标准计算得到 。 文献[ 2 9] 采用面向评估的方法对 Web 数据质量标准进行分 类 。 根据影响数据质量的用户 、数据源和查询过程这三个主要因 素 , 对应地将文献[ 14] 中的 22 个质量维度分为主观标准 、客观标准

8

Journal of Informat ion No . 2 , 2007  
和过程标准 。 每个维度都有相应的评估方法 。

              情报杂志 2007 年第 2 期
10  Zeist R H J , P R H H endriks . Specifying Sof tw are Quality w ith the Ex tended ISO Model . Sof tw are Quality Journal , 1996 ; ( 4) 11  Alexander J E , M A T ate . W eb W isdom : How to E valuate and C reate Info rmation on the Web . Mahw ah . NJ : E rlbaum , 1999 12  Ka te rattanakul P , K Siau . Measuring Inform ation Quality of Web Sites : Development of an Instrument . In : Proceedings of the 20th International C onfe rence o n Informa tio n Systems . Charlo tte , No rth Ca rolina , USA , 1999 13  Shanks G , B Co rbit t . Unde rstanding Data Quali ty : Social and Cultural Aspects . In : Proceeding s of the 10th Australasian C onfe rence on Inf orma tio n Sy stems , 1999 14  Naumann F , C Rolker . Assessment Me thods fo r Information Quality C riteria . In : Pro ceedings of 5th Inte rna tio nal Conference on Inform ation Quality , 2000 15  Dedeke A . A Conceptual Fram ewo rk for Developing Quality Measures for Info rma tio n Sy stem s . In : Pro ceedings of the 5th International Conference on Info rma tio n Quality , 2000 16  Zhu X , S Gauch . Incorporating Quality Me trics in Centralized/ Distributed In fo rmation Re trieval on the Wo rld W ide Web . In : P roceedings of the 23rd Annu al Inte rnational AC M SIGIR Conference on Research and Development in In fo rmation Retrieval , Athens , Greece , 2000 17  E ppler M , P Muenzenm ay er . Measuring Inform ation Quality in the Web Co n tex t : A Survey of State -of -the -art Instruments and an Application Method ology . In : Pro ceedings of the 7th International Conference o n Info rmation Quality , 2002 18  Knig ht S , J Burn . Developing a Framew o rk fo r Assessing Information Quality o n the W orld Wide Web . Informing Science Journal , 2005 ; ( 8) 19  Parker M B , V Moleshe , R De la H arpe , e t al. An Evaluation of Info rmation Quali ty Framew orks for the Wo rld Wide W eb . In : Proceedings of 8t h Annual C onference on WW W Applica tio ns . Bloemfontein , Free State P rovince , South Af rica , 2006 20  Alan F K , A P Sanil , J Sacks , et a l. Wo rkshop Report : Affiliates W orkshop on Data Quality . N orth C arolina : NISS , March , 2001 21  W ang R Y , V Sto rey , C Fi rth . A Fram ew o rk fo r Analy sis of Data Quality Research . IEEE T ransactions on Know ledge and Data Eng ineering , 1995 ; ( 4) 22  W ang R Y . A P roduct . Perspective o n To tal Data Quality Management . C ommunications o f the ACM , 1998 ; ( 2 ) 23  Ballou D P , R Y Wang , H Pazer , e t al. Modeling Inform ation Manufacturing Systems to Determine Info rmation P roduct Quality . Management Science , 1998 ; ( 4) 24   Shankar G , R Y Wang , M Ziad . IP -MAP : Representing the Manufacture of an Informa tio n Product . In : Pro ceedings o f the 2000 International Conference on Informa tio n Quali ty . 2000 25  W ang R Y , H Kon , S Madnick . Data Quality Requirements Analy sis and M od eling . In : Proceedings o f the Ninth International Conference of Data Eng ineering . 1993 26  W ang R Y , D M St rong , B K Kahn , et al. An Information Quality Assessment Me thodology. In : P roceedings of the International Conference on Info rmation Quali ty . C ambridge , MA , 1999 27  Yang L , D M Strong , B K Kahn , et al. AIMQ : a Methodo log y for Info rmation Quali ty Assessment . Info rma tio n & Manag ement , 2002 ; ( 2) 28  Bobro w ski M , M M arre, D Yankelevich . A Homogeneous F ramew ork to Measure Da ta Quality . In : P roceedings of the International Conference on Info rmation Quality . Cambridge , MA , 1999 29  Naumann F , C Rolker . Assessment Me thods fo r Information Quality C riteria . In : Pro ceedings of 5th Inte rna tio nal Conference on Inform ation Quality . 2000 30  Pipino L , Y Lee , R Y W ang . Data Quality Assessment . Co mmunica tio ns of the ACM , 2002 ; ( 5) 31  C appiello C , C F rancalanci , B Pernici. Data Quality Assessment fro m the Use r' s Perspec tive . In : P roceedings of IQIS' 04 in Co njunction wi th the 23rd AC M SIGMOD International Co nference on Management of Data . Pa ris , 2004 32  W ang R , T Allen , W H arris , e t al . An Informa tio n P roduct Approach for T otal Informa tio n Aw areness . In : Proceeding s of IEE E Aerospace C onference . 2003 33  Ryu K S , J S Pa rk , J H Park . A Data Quality Management M aturity Model. E T RI Journal , 2006 ; ( 2) ( 责编 : 愚加勃)

文献[ 30] 给出 3 种数据质量客观评价的算法( 简单比率 , 最大 -最小运算 , 加权平均) , 并描述了将客观评价和主观评价结合 , 在 实际应用中改进数据质量的步骤 。 文献[ 3 1] 给出一个完整的数据质量评估体系 。 评估过程按照 由选择模块 、质量评估模块和简表( profile) 模块构成的数据质量评 估架构进行 , 将评估过程得到的数据质量值和用户类要求进行比较 来判断质量是否符合要求 。 文献[ 17] 给出由 4 个步骤 12 个方面组成的 Web 数据质量测 量方法 , 16 个质量维度都有各自的 Web 指标和测量工具 。 由于数据质量与背景和用户密切相关 , 现有的数据质量测量和 评估都采取主观和客观相结合的方法 。 4  数据质量管理体系 当利用信息系统环境和制造环境的相似性建立起数据产品与 物质产品的联系后 , 全面质量管理( TQM ) 的原则 、方法 、指南和技 术就可以用于数据质量管理 。 国际标准化组织的 IS O 900 0 系列标 准( 2000 年版包括 ISO 9000 、IS O 9 001 和 ISO 9004) 是世界范围内 广泛接受的质量管理标准体系 , 数据质量管理体系研究也基本继承 ISO 900 0 系列标准的框架 , 如文献[ 21] 、 [ 22] 和[ 32] 的研究 。 文献[ 33] 引入评估组织数据质量管理能力的数据质量管理成 熟度模型 , 该模型与软件能力成熟度模型相似 , 分为 4 个等级 : 一级 为初始数据管理级 ; 二级为已定义数据管理级 ; 三级为已管理数据 管理级 ; 四级为优化数据管理级 。 5  结束语 经过 20 多年的历程 , 数据质量管理研究取得了比较系统的研 究成果 。 特别是麻省理工学院的全面数据质量管理( T DQM ) 研究 自成一体 , 从 1990 年开始发表了数十篇论文 , 出版专著 5 部 。 无论是将数据质量定义为数据“ 使用的适合性” , 还是根据 ISO 9000 的版本升级引起质量定义的变化 , 而定义为“ 一组固有特性满 足要求的程度” , 由于环境和个体的差异 , 在特定的背景中识别数据 质量维度是有价值的研究工作 。 为从整体上考虑信息系统开发的数据质量和运行的数据质量 , 降低解决系统开发和运行过程中数据质量问题的总体成本 , 开发适 用于信息系统从分析设计到运行维护全过程的 、适合数据质量管理 的信息系统模型也值得进一步研究 。
参 考 文 献 1  Scannapieco M , T Ca tarci . Data Quality under the Com puter Science Perspective . A rchivi & Com puter , 2002 ; ( 2 ) 2  Center fo r Innov ation in Engineering Educa tio n at Vande rbilt Unive rsity . What is Quali ty : Definitions and Co nt rast s . http : / / mo t . vuse . vanderbilt . edu/ m t322/ W hatis . htm , 2006 -10 -10 3  Qualitydig est . Quality : How Do You Define it . http : // w w w . qualitydigest . com/ html/ qualityde f . html , 2006 -10 -10 4  GB/ T19000 -2000( ISO 9000 : 2000) 质量管理体系 — — — 基础和术语 5  Juran J M , A B Godf rey . Juran' s Quali ty H andbook( 5th edition). New Yo rk : McGraw -Hill , 1999 6  Crosby P B . Quality is Free : The A rt of Making Quali ty Certain . New Yo rk : McGraw -Hill , 1988 7  Wang R Y , D M Strong . Bey ond Accuracy : What Data Quality Means to Data Co nsumers . Journal of Management Info rmation Systems , 1996 ; ( 4) 8  Orr K . Data Quality and System T heory . Com munica tio ns o f the ACM , 1998 ; ( 2 ) 9  Stro ng D , Y Lee , R Y W ang . Data Quality in Contex t . Communications of the ACM , 1997 ; ( 5)

9



  本文关键词:国外数据质量管理研究综述,,由笔耕文化传播整理发布。



本文编号:141468

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/zhiliangguanli/141468.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48aaa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com