大数据环境下数据质量管理、评估与检测关键问题研究
发布时间:2022-12-17 16:12
随着信息社会的不断发展,信息系统中充斥着海量的、多结构的、多维度的数据资源,大数据价值已被社会全面认可,如何挖掘数据价值已成为各研究领域和各行业应用领域最为关心的问题。数据究竟是垃圾还是宝藏,最重要的问题是所要分析挖掘的数据是否是高质量的,一个低质量的数据来源会使得不仅无法体现数据价值,而且可能会与实际情况背道而驰,反而起到了副作用。目前,国内外研究机构和学者针对数据质量管理与检测问题提出了多种方法论和框架,但在实际应用当中缺乏具体执行手段,使得数据质量管理实行起来困难重重。针对数据质量管理、评估和检测的关键问题,本文做了以下工作:(1)针对数据质量管理问题,本文通过对目前国内外主流数据管理方法和框架进行了深入对比和分析,梳理出数据质量管理的通用方法流程和指标体系。提出了六项重要数据质量指标的度量方法,并提出了计算公式,为数据质量管理和评估提供了有效指导。同时,针对数据质量管理的执行情况提出了数据质量成熟度模型,为数据质量的整体评价提供了参考依据。(2)针对数据预处理问题,本文提出了一种数据离散化预处理算法。在大数据环境中,数据产生和更新频率不断加快,更多的数据是以连续方式进入信息系统...
【文章页数】:118 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景
1.1.1 大数据发展背景
1.1.2 数据质量发展背景
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 主要研究内容与创新点
1.3.1 研究内容
1.3.2 主要创新点
1.4 论文组织结构
第2章 大数据环境下数据质量管理方法研究
2.1 大数据概念及技术架构
2.1.1 大数据概念定义
2.1.2 大数据技术架构
2.2 数据质量管理方法学
2.2.1 数据质量管理和评价原则
2.2.2 数据质量管理驱动策略
2.2.3 数据质量管理和评价方法论
2.2.4 数据质量评价维度
2.2.5 数据质量管理及评估方法比较分析
2.3 数据质量主要维度度量方法
2.4 数据质量成熟度模型
2.4.1 成熟度等级分类
2.4.2 模型的评估
2.5 本章小结
第3章 数据离散化预处理算法研究
3.1 数据离散化存在的问题
3.2 粗糙集理论
3.3 数据离散化处理算法
3.4 改进的数据离散化处理算法(ICACC)
3.5 实验验证和结果分析
3.6 本章小结
第4章 数据质量检测关键问题研究
4.1 数据质量差异性检测方法(M-SPC方法)
4.1.1 离群值检测
4.1.2 机器学习与深度学习
4.1.3 统计过程控制
4.1.4 M-SPC方法具体描述与实验验证
4.2 数据质量完整性检测方法
4.2.1 理论基础
4.2.2 方法概述
4.2.3 方法流程
4.2.4 测试结果
4.3 本章小结
第5章 数据质量评估关键问题研究
5.1 问题分析和理论基础
5.1.1 问题分析
5.1.2 理论基础
5.2 数据质量有效性评估算法(MKS算法)
5.2.1 加入MST方法的K-means算法
5.2.2 MKS算法描述
5.2.3 实验验证与结果分析
5.3 本章小结
第6章 总结与展望
6.1 论文总结
6.2 研究展望
参考文献
作者简介和攻读博士期间学术成果
致谢
【参考文献】:
期刊论文
[1]C4.5算法的研究及改进[J]. 姜如霞,黄水源,段文影,余楚波. 南昌大学学报(理科版). 2019(01)
[2]改进的C4.5算法的研究与应用[J]. 赵建民,黄珊,王梅,刘澎. 计算机与数字工程. 2019(02)
[3]大数据在航空系统的研究现状与发展趋势[J]. 孔祥芬,蔡峻青,张利寒,唐杰,侯晨光. 航空学报. 2018(12)
[4]基于粗糙集理论与CAIM准则的C4.5改进算法[J]. 于宏涛,贾宇波. 计算机系统应用. 2018(07)
[5]通用数据质量评估模型及本体实现[J]. 张晓冉,袁满. 计算机研究与发展. 2018(06)
[6]基于遗传算法和变精度粗糙集的离散化算法[J]. 张婧,曹峰,唐超. 华中师范大学学报(自然科学版). 2018(03)
[7]改进SVM算法在引水明渠纵向离散系数优化中分析[J]. 董天奥. 水利规划与设计. 2018(05)
[8]工业大数据技术综述[J]. 王建民. 大数据. 2017(06)
[9]基于用户兴趣变化的Slope One协同过滤推荐算法[J]. 黄皓璇,邢延. 工业控制计算机. 2017(07)
[10]改进加权Slope one协同过滤推荐算法研究[J]. 王潘潘,钱谦,王锋. 传感器与微系统. 2017(07)
硕士论文
[1]基于变精度粗糙集理论的多属性离散化方法研究[D]. 胡振华.华中科技大学 2019
[2]离散空间中的邻域粗糙集模型[D]. 李浩.渤海大学 2017
[3]基于SVM和组合特征的分类算法研究[D]. 王珏.大连理工大学 2017
[4]基于聚类的加权Slope One推荐技术研究[D]. 杜倩.北京工业大学 2016
[5]基于局部近邻Slope One与动态专家的协同过滤推荐算法研究[D]. 李剑锋.湖南大学 2016
[6]基于加权偏差表的Slopeone改进算法研究[D]. 宋晗.云南大学 2013
[7]改进的模糊C均值聚类与连续属性离散化算法研究[D]. 李鑫.太原科技大学 2011
[8]基于信任模型的协同过滤推荐算法的研究[D]. 夏小伍.中国科学技术大学 2011
[9]离散化算法研究与应用[D]. 王哲.大连理工大学 2009
[10]政府统计数据质量及其管理研究[D]. 张芳.湖南大学 2004
本文编号:3720240
【文章页数】:118 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景
1.1.1 大数据发展背景
1.1.2 数据质量发展背景
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 主要研究内容与创新点
1.3.1 研究内容
1.3.2 主要创新点
1.4 论文组织结构
第2章 大数据环境下数据质量管理方法研究
2.1 大数据概念及技术架构
2.1.1 大数据概念定义
2.1.2 大数据技术架构
2.2 数据质量管理方法学
2.2.1 数据质量管理和评价原则
2.2.2 数据质量管理驱动策略
2.2.3 数据质量管理和评价方法论
2.2.4 数据质量评价维度
2.2.5 数据质量管理及评估方法比较分析
2.3 数据质量主要维度度量方法
2.4 数据质量成熟度模型
2.4.1 成熟度等级分类
2.4.2 模型的评估
2.5 本章小结
第3章 数据离散化预处理算法研究
3.1 数据离散化存在的问题
3.2 粗糙集理论
3.3 数据离散化处理算法
3.4 改进的数据离散化处理算法(ICACC)
3.5 实验验证和结果分析
3.6 本章小结
第4章 数据质量检测关键问题研究
4.1 数据质量差异性检测方法(M-SPC方法)
4.1.1 离群值检测
4.1.2 机器学习与深度学习
4.1.3 统计过程控制
4.1.4 M-SPC方法具体描述与实验验证
4.2 数据质量完整性检测方法
4.2.1 理论基础
4.2.2 方法概述
4.2.3 方法流程
4.2.4 测试结果
4.3 本章小结
第5章 数据质量评估关键问题研究
5.1 问题分析和理论基础
5.1.1 问题分析
5.1.2 理论基础
5.2 数据质量有效性评估算法(MKS算法)
5.2.1 加入MST方法的K-means算法
5.2.2 MKS算法描述
5.2.3 实验验证与结果分析
5.3 本章小结
第6章 总结与展望
6.1 论文总结
6.2 研究展望
参考文献
作者简介和攻读博士期间学术成果
致谢
【参考文献】:
期刊论文
[1]C4.5算法的研究及改进[J]. 姜如霞,黄水源,段文影,余楚波. 南昌大学学报(理科版). 2019(01)
[2]改进的C4.5算法的研究与应用[J]. 赵建民,黄珊,王梅,刘澎. 计算机与数字工程. 2019(02)
[3]大数据在航空系统的研究现状与发展趋势[J]. 孔祥芬,蔡峻青,张利寒,唐杰,侯晨光. 航空学报. 2018(12)
[4]基于粗糙集理论与CAIM准则的C4.5改进算法[J]. 于宏涛,贾宇波. 计算机系统应用. 2018(07)
[5]通用数据质量评估模型及本体实现[J]. 张晓冉,袁满. 计算机研究与发展. 2018(06)
[6]基于遗传算法和变精度粗糙集的离散化算法[J]. 张婧,曹峰,唐超. 华中师范大学学报(自然科学版). 2018(03)
[7]改进SVM算法在引水明渠纵向离散系数优化中分析[J]. 董天奥. 水利规划与设计. 2018(05)
[8]工业大数据技术综述[J]. 王建民. 大数据. 2017(06)
[9]基于用户兴趣变化的Slope One协同过滤推荐算法[J]. 黄皓璇,邢延. 工业控制计算机. 2017(07)
[10]改进加权Slope one协同过滤推荐算法研究[J]. 王潘潘,钱谦,王锋. 传感器与微系统. 2017(07)
硕士论文
[1]基于变精度粗糙集理论的多属性离散化方法研究[D]. 胡振华.华中科技大学 2019
[2]离散空间中的邻域粗糙集模型[D]. 李浩.渤海大学 2017
[3]基于SVM和组合特征的分类算法研究[D]. 王珏.大连理工大学 2017
[4]基于聚类的加权Slope One推荐技术研究[D]. 杜倩.北京工业大学 2016
[5]基于局部近邻Slope One与动态专家的协同过滤推荐算法研究[D]. 李剑锋.湖南大学 2016
[6]基于加权偏差表的Slopeone改进算法研究[D]. 宋晗.云南大学 2013
[7]改进的模糊C均值聚类与连续属性离散化算法研究[D]. 李鑫.太原科技大学 2011
[8]基于信任模型的协同过滤推荐算法的研究[D]. 夏小伍.中国科学技术大学 2011
[9]离散化算法研究与应用[D]. 王哲.大连理工大学 2009
[10]政府统计数据质量及其管理研究[D]. 张芳.湖南大学 2004
本文编号:3720240
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3720240.html