关系数据中函数依赖检测方法
本文选题:数据质量 + 函数依赖 ; 参考:《计算机学报》2017年01期
【摘要】:在数据质量研究中函数依赖被广泛用于关系数据不一致性的修复.然而,不一致修复问题面临的一个主要挑战是如何从包含有错误的关系数据中自动发现有效的函数依赖(Functional Dependence,FD).目前基于统计度量置信度的FD自动发现方法经常找出大量近似成立但无效的FD.如果直接利用这些FD修复数据,会产生更多错误.针对该问题,文中提出了一种基于数据语义分析的函数依赖检测方法.该方法通过条件概率来分析属性值和元组的数据置信度,进而计算函数依赖成立的置信度.文中同时提出了利用关系数据构建马尔科夫毯贝叶斯网络用以计算数据置信度的方法.最后文中通过实验在模拟数据和真实数据上验证了基于数据语义的置信度计算方法在自动检测中的精确度优于基于统计的计算方法,并且在交互式检测应用场景中数据语义的置信度所需用户工作量少于基于统计的方法.
[Abstract]:In data quality research, functional dependencies are widely used to repair the inconsistency of relational data. However, one of the major challenges to the problem of fixing inconsistencies is how to automatically find effective functional dependency from relational data containing errors. Current FD automatic discovery methods based on statistical metric confidence often find a large number of approximate but invalid FDs. If these FD fixes the data directly, it will produce more errors. To solve this problem, a method of functional dependency detection based on data semantic analysis is proposed. The confidence degree of attribute value and tuple is analyzed by conditional probability, and the confidence degree of functional dependency is calculated. At the same time, a method of using relational data to construct Markov blanket Bayesian network to calculate the confidence of data is proposed. Finally, the accuracy of the confidence degree calculation method based on data semantics is proved to be superior to that of statistical calculation method in automatic detection through experiments on simulated data and real data. Moreover, in the interactive detection application scenario, the user workload is less than the statistical method.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家“九七三”重点基础研究发展规划项目基金(2012CB316203) 国家自然科学基金(61332006,61472321) 西北工业大学基础研究基金(3102014JSJ0013,3102014JSJ0005)资助~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 熊中敏;郝忠孝;;基于路径函数依赖和键约束的复杂对象嵌套结构规范化[J];计算机工程;2006年04期
2 卫强;周晓沧;;基于属性预扫描的不确定性函数依赖挖掘[J];清华大学学报(自然科学版);2009年06期
3 程录庆;;条件函数依赖与数据质量控制[J];信息系统工程;2009年11期
4 彭湘凯;陈富强;;函数依赖对商覆盖立方体生成效率的影响[J];计算机工程与应用;2009年34期
5 安秋生;;粒计算支持的粗糙函数依赖的研究[J];计算机工程与应用;2010年10期
6 程录庆;;数据约束表达研究——比较条件函数依赖与传统函数依赖[J];洛阳师范学院学报;2011年11期
7 耿寅融;刘波;;基于条件函数依赖的数据库一致性检测研究[J];计算机工程与应用;2012年03期
8 杜晓昕;王波;戴学丰;;函数依赖判定可行域的人工鱼群属性约简[J];计算机工程与应用;2012年09期
9 李丁月;刘建勋;翟海军;;一种增量发现条件函数依赖的算法[J];计算机工程与科学;2013年08期
10 马垣;属性集合函数依赖的半序同构集[J];计算机学报;1987年10期
相关会议论文 前10条
1 陈长清;冯剑琳;向隆刚;冯玉才;;维之间带函数依赖关系的数据立方的有效计算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 张忠平;曹顺良;李荣;朱扬勇;;基于约束的XML模式规范化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 马垣;张小平;白雪;王旭;刘杨;杨鸿雁;;函数依赖作用域及分类规则的挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵相国;王国仁;张恩德;丁大斌;霍欢;;XML函数依赖的定义及分析[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 马垣;;动态Fuzzy函数依赖[A];第十二届全国数据库学术会议论文集[C];1994年
6 刘云峰;杨冬青;唐世渭;王腾蛟;;基于XML数据交换中的函数依赖转换方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 张忠平;余靖;朱扬勇;;基于函数依赖的XML键的推理及其求解算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 张小峰;张福增;赵永升;李明;;基于函数依赖关系的约简算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
相关重要报纸文章 前1条
1 记者 何屹;美籍华裔科学家获英计算机最高奖[N];科技日报;2008年
相关博士学位论文 前1条
1 吕腾;XML文档的规范化问题研究[D];复旦大学;2003年
相关硕士学位论文 前10条
1 吴佳;多态依赖蕴含判定方法的研究[D];北京工业大学;2015年
2 叶杰敏;不确定数据库及相关理论研究[D];东华大学;2014年
3 李高仕;XML数据库的规范化理论研究[D];湖南师范大学;2008年
4 闫渊;基于信息论和函数依赖的半监督学习[D];吉林大学;2013年
5 覃事东;基于函数依赖改进隐含朴素贝叶斯的性能和鲁棒性[D];吉林大学;2014年
6 苏杰;基于编辑距离和条件函数依赖的酒店数据清洗方法研究[D];南昌大学;2014年
7 张峰;XML不完全信息的动态发现[D];山东大学;2009年
8 侯林娇;基于函数依赖的成批处理模式挖掘方法研究[D];湖南科技大学;2011年
9 曹颖;云计算环境下分布式数据不一致的研究[D];中国海洋大学;2013年
10 周莉;带约束的XML与RDB数据转换关键技术的研究[D];江西师范大学;2005年
,本文编号:1991653
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1991653.html