数据质量检测规则自动发现的研究与实现

发布时间:2021-01-20 03:56
  数据如同产品,具有质量这一概念,且其质量的高低影响着目标数据被充分挖掘的程度和可靠性。由于在日常生产和生活中,数据的产生和加工过程可能伴随脏数据的产生,使得对数据进行的分析工作具有可信度不高等特点。为了对数据的质量情况进行检测,需要配置一定的数据质量检测规则。然而现阶段对于规则的配置多采用数据工程师手动配置的方式,导致工程师的工作量较大,工作效率较低,因此,对于如何从数据中自动发现数据质量检测规则的研究日渐活跃。由于条件函数依赖在表达属性间关联关系的同时还表达了具体的语义约束关系,因此目前对于数据质量检测规则自动发现的研究主要指的是对条件函数依赖自动发现的研究。又由于在实际应用中,数据存在缺失值会导致发现出的条件函数依赖数量较少,且已有研究工作较少关注条件函数依赖自动发现算法的剪枝优化问题,因此,本文以数据质量检测规则的自动发现及其实现为研究课题,对缺失值填补方法和条件函数依赖自动发现方法进行了研究。主要研究内容和成果如下:(1)针对数据集存在缺失值会减少从中发现出的条件函数依赖数量这一问题,提出了一种在数据预处理阶段基于改进近邻传播聚类和改进K最近邻来填补缺失值并提升缺失值填补准确性... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:88 页

【学位级别】:硕士

【部分图文】:

数据质量检测规则自动发现的研究与实现


属性包含格示意图

界面图,界面,规则管理,支持度


第五章基于APTANEKNN-CCTANE的规则管理模块设计与实现67击“规则管理”模块的“新增规则”按钮,此时页面如图5-4所示,弹出的弹框包含了即将进行规则自动发现的数据集名称、该数据集上的记录数,以及需要由用户输入的支持度参数。需要注意的是,此时的数据集名称和该数据集上的记录数为不可编辑状态。此处显示数据集记录数的目的是为了限制用户设置的支持度参数范围,即支持度的取值范围在0和数据集记录数之间。当用户设置好支持度参数后,即可点击“确定”按钮,传递页面新增规则的请求,调用insert()方法进行缺失值的检测、填补以及规则自动发现过程,同时页面将显示“规则正在生成,请耐心等待……”这一提示信息,当规则生成完毕后,页面将显示出生成的规则总数。另外,用户可点击“取消”按钮来取消对规则的自动发现操作。图5-4规则自动发现界面5.3.2.2规则管理界面规则管理界面如图5-5所示,用户在数据质量检测平台根据数据源、业务分类选择了具体的数据集之后,规则管理模块会在页面右侧位置以列表的形式显示出目标数据集上已配置的规则信息,包括规则名称、规则的条件字段和结果字段,也就是CFDs中分别对应的左方集和右方集。另外,列表还会列出得到这条规则的支持度参数,最后,用户可以对选中的规则进行“查看详情”、“编辑”和“删除”操作。模块中的“新增规则”指的是使用本文提出的CCTANE算法从目标数据集当中自动发现出数据质量检测规则。

界面图,规则管理,界面,字段


电子科技大学硕士学位论文68图5-5规则管理界面图5-6展示了规则的“查看详情”界面,用户在该界面可以查看所选规则的详细信息,包括规则名、条件字段、条件字段属性值、结果字段、结果字段属性值等,便于在后续数据质量检测环节根据规则信息设置适宜的权重进行数据质量的检测,但要注意的是,此时界面中的各输入框均为不可编辑状态,只有在“编辑”操作时才可对输入框中的内容进行更新。图5-6规则详情界面5.4本章小结本章对实现数据质量检测规则统一管理和自动发现的规则管理模块进行了详细介绍,从模块需求分析入手介绍了设计并实现这一模块的原因以及要解决的问


本文编号:2988320

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2988320.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5766d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com