数据微观不一致性问题的研究

发布时间:2021-01-12 10:20
  近年来,随着数据规模快速增长,数据质量问题日益凸显,已经成为数据库领域的重要研究方向。不一致性是数据质量问题中的一个重要方面,数据质量规则是处理数据不一致性的重要工具。为检测和修复不一致数据,各种约束规则被提出来,包括函数依赖、条件函数依赖、编辑规则以及修复规则等,这些数据质量规则大多规定元组在某些属性上的值能在一定程度上提供该元组在其他属性上值的信息。现有规则都描述宏观不一致性,也就是将每个属性值看做一个不可分割的整体,这也是符合关系数据库的设计规范的。然而在大量的实际应用中,一些属性值中的某一部分就能确定其他属性值,而现有数据质量规则尚未考虑这类重要信息。为了将这类微观信息加以利用,本文提出了一种新的数据质量规则:微函数依赖,用于处理数据中的微观不一致性。围绕数据的宏观不一致性,现有研究主要包括规则的定义及分析、规则的自动挖掘、基于规则检测数据的不一致性,以及基于规则修复数据的不一致性等问题。类似的,本文关于数据微观不一致性的研究也从这四个方面展开:首先,为描述微观不一致性,提出了微函数依赖的概念。通过引入提取函数,对微函数依赖进行语法和语义的定义,并研究其基本性质,包括可满足性、... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:155 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景和意义
    1.2 研究现状及分析
        1.2.1 不一致数据约束规则研究现状
        1.2.2 约束规则自动挖掘的研究现状
        1.2.3 不一致数据检测的研究现状
        1.2.4 不一致数据修复的研究现状
        1.2.5 研究现状总结及分析
    1.3 本文的主要研究内容
        1.3.1 微函数依赖的理论分析
        1.3.2 微函数依赖的挖掘
        1.3.3 微观不一致数据的检测
        1.3.4 微观不一致数据的修复
第2章 微函数依赖的定义及分析
    2.1 现有依赖的不足
    2.2 微函数依赖的定义
        2.2.1 提取函数
        2.2.2 微函数依赖的定义
    2.3 微函数依赖的静态分析
        2.3.1 微函数依赖的可满足性分析
        2.3.2 微函数依赖的蕴含性分析
    2.4 微函数依赖的公理系统
    2.5 实验分析
        2.5.1 实验配置
        2.5.2 不同依赖检错能力的对比
        2.5.3 检错效率对比
    2.6 本章小节
第3章 微函数依赖的自动发现
    3.1 引言
    3.2 预备知识
    3.3 字符串类型数据的聚类和对齐
        3.3.1 基于命名规则的聚类
        3.3.2 基于命名规则的对齐
        3.3.3 贪心合并算法的框架
        3.3.4 基于上下界区间的裁剪方法
        3.3.5 基于独立性的裁剪方法
        3.3.6 基于裁剪技术的贪心合并算法
    3.4 微函数依赖的挖掘
    3.5 实验分析
        3.5.1 实验配置
        3.5.2 算法效率对比
        3.5.3 挖掘到的依赖
        3.5.4 依赖的正确性及可用性
    3.6 本章小结
第4章 最小化数据读写的微观不一致检测算法
    4.1 引言
    4.2 预备知识
    4.3 成对检测任务间的共享技术
        4.3.1 全共享技术
        4.3.2 部分共享技术
        4.3.3 一般共享技术
    4.4 检测任务顺序的调度
        4.4.1 共享技术在多任务上的一般化
        4.4.2 检测顺序调度问题
        4.4.3 基于贪心的启发式算法
    4.5 实验分析
        4.5.1 实验配置
        4.5.2 算法性能对比
        4.5.3 估计精度对性能的影响
    4.6 本章小结
第5章 多个冲突数据源上的微观不一致性修复算法
    5.1 引言
        5.1.1 解决多源数据冲突真值发现
        5.1.2 基于规则的数据修复
        5.1.3 已有方法存在的问题
    5.2 多源不一致数据修复问题的定义
    5.3 基于模式分解的真值发现算法
        5.3.1 算法基本框架
        5.3.2 模式分解规则
        5.3.3 数据源的可靠度的计算
        5.3.4 数据真实值的估计
        5.3.5 后处理过程
        5.3.6 基于模式分解的真值发现算法
        5.3.7 几点实际问题
    5.4 实验分析
        5.4.1 实验配置
        5.4.2 假设现象的验证
        5.4.3 实验结果
    5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历


【参考文献】:
期刊论文
[1]基于Web信息的关系型信息错误自动检测与修复技术研究综述[J]. 刘海龙,李战怀,陈群,陈肇强.  计算机学报. 2017(10)
[2]基于关联数据的一致性和时效性清洗方法[J]. 杜岳峰,申德荣,聂铁铮,寇月,于戈.  计算机学报. 2017(01)
[3]分布式大数据不一致性检测[J]. 李卫榜,李战怀,陈群,杨婧颖,姜涛.  软件学报. 2016(08)
[4]概率数据库中近似函数依赖挖掘算法[J]. 苗东菁,刘显敏,李建中.  计算机研究与发展. 2015(12)
[5]一种扩展条件函数依赖的发现算法[J]. 刘显敏,李建中.  计算机研究与发展. 2015(01)
[6]大数据的一个重要方面:数据可用性[J]. 李建中,刘显敏.  计算机研究与发展. 2013(06)



本文编号:2972680

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2972680.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e3327***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com