当前位置:主页 > 科技论文 > 软件论文 >

大数据一致性质量分析算法研究

发布时间:2023-02-26 07:57
  数据质量管理与分析一直是大数据领域的一个重要研究方向,数据的质量决定着能否充分利用和挖掘数据的价值。条件函数依赖(CFD)是最近被提出的一个有效的基于数据一致性约束处理数据质量问题的工具,在近几年受到了学术界的广泛关注。目前学术界关于CFD已经有较多的研究工作,然而无论是利用CFD进行数据质量检测,还是从现有数据集中进行CFD发现,已有的研究工作中都较少对算法的性能进行细致系统的分析优化,使得已有的算法往往不能被应用于实际生产中的海量数据分析过程中。本文面向实际生产生活中的庞大数据级别,提出了一种利用CFD进行数据不一致性检测的流式工作框架,并提出了两种对算法性能进行进一步优化的结构。此外,对于已有的CFD规则发现的方法,本文针对算法高时间复杂度的特点,结合已有工作,对CFD发现算法进行亚线性加速,使其可以被应用到大数据情景上。最后本文通过对比实验,对本文所以出的优化算法及框架的性能进行了测试。实验结果表明,本文提出的流式检测框架对CFD检测任务的性能有着较为明显的提升;同时,对发现算法的亚线性加速方法也对CFD发现任务的响应时间有着显著积极的影响。

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状概述
        1.2.1 CFD语法语义的研究
        1.2.2 CFD单机节点上的检测
        1.2.3 CFD分布式系统中的检测
        1.2.4 利用CFD进行数据修复
        1.2.5 CFD规则发现
    1.3 主要研究内容
    1.4 本文组织结构
第2章 相关理论介绍
    2.1 CFD的定义
    2.2 检测的一般步骤
    2.3 本章小结
第3章 单机节点上CFD检测算法优化
    3.1 引言
        3.1.1 基于SQL查询的CFD检测
        3.1.2 基于数据倒排存储的加速检测方法
        3.1.3 流式检测框架
    3.2 优化数据匹配过程
        3.2.1 基于循环进行数据匹配
        3.2.2 利用哈希连接优化匹配
    3.3 违反检测
        3.3.1 判断型等价类存储结构
        3.3.2 统计型等价类存储结构
    3.4 实验结果
        3.4.1 实验环境
        3.4.2 实验数据生成
        3.4.3 单机检测算法实验结果分析
    3.5 本章小结
第4章 分布式系统上的CFD检测优化
    4.1 基于Hadoop的朴素算法分析
        4.1.1 算法介绍
        4.1.2 朴素算法性能分析
    4.2 基于Hadoop的优化实现
        4.2.1 集成单机哈希优化加速算法
        4.2.2 Mapper减少数据Shuffle
        4.2.3 Mapper等价类信息去噪输出
        4.2.4 Reducer汇总等价类信息
    4.3 实验结果
        4.3.1 实验环境搭建
        4.3.2 实验结果分析
    4.4 本章小结
第5章 亚线性CFD模式生成算法
    5.1 引言
    5.2 CFD模式生成方法
        5.2.1 贪心近似
        5.2.2 On-Demand优化贪心算法
    5.3 设计亚线性算法
        5.3.1 简单随机抽样
        5.3.2 面向CFD进行分类抽样
        5.3.3 实验结果分析
    5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢



本文编号:3750145

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3750145.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4673a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com