分布式大数据多函数依赖冲突检测
[Abstract]:One of the main problems of data quality in relational database is the inconsistency of data. In order to find inconsistent data, functional dependency conflict detection is needed. SQL technology can be used to detect inconsistency in centralized database, but in distributed environment, functional dependency conflict detection is more challenging, especially in big data background. In distributed environment, function dependency conflict detection usually requires data migration, and different data migration methods have a certain impact on detection efficiency. In this paper, a method of multi-functional dependency conflict detection in distributed environment based on equivalence class is proposed, and the response time cost model of conflict detection is given. Because the task assignment problem of distributed environment function dependent conflict detection problem is NP- problem, it is difficult to obtain the optimal solution in polynomial time. In this paper, the problem of minimizing the response time of inconsistent detection is transformed into an integer programming problem. The approximate optimal solution is given. In view of the different size of cluster and the number of functional dependencies, different task allocation strategies are proposed, and dynamic load balancing is realized in the detection process, which effectively improves the load balancing degree and detection efficiency. Experiments on real and artificial datasets show that compared with the centralized detection method and the naive method based on Hadoop, the efficiency of the multi-function dependency conflict detection method proposed in this paper is significantly improved, and the efficiency of the proposed multi-function dependency conflict detection method is improved in the data scale. The number of nodes and the number of function dependencies have good expansion performance.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家“九七三”重点基础研究发展规划项目基金(2012CB316203) 国家自然科学基金(61502390,61472321,61332006,61272121) 国家“八六三”高技术研究发展计划项目基金(2015AA015307)资助~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 熊中敏;郝忠孝;;基于路径函数依赖和键约束的复杂对象嵌套结构规范化[J];计算机工程;2006年04期
2 卫强;周晓沧;;基于属性预扫描的不确定性函数依赖挖掘[J];清华大学学报(自然科学版);2009年06期
3 程录庆;;条件函数依赖与数据质量控制[J];信息系统工程;2009年11期
4 彭湘凯;陈富强;;函数依赖对商覆盖立方体生成效率的影响[J];计算机工程与应用;2009年34期
5 安秋生;;粒计算支持的粗糙函数依赖的研究[J];计算机工程与应用;2010年10期
6 程录庆;;数据约束表达研究——比较条件函数依赖与传统函数依赖[J];洛阳师范学院学报;2011年11期
7 耿寅融;刘波;;基于条件函数依赖的数据库一致性检测研究[J];计算机工程与应用;2012年03期
8 杜晓昕;王波;戴学丰;;函数依赖判定可行域的人工鱼群属性约简[J];计算机工程与应用;2012年09期
9 李丁月;刘建勋;翟海军;;一种增量发现条件函数依赖的算法[J];计算机工程与科学;2013年08期
10 马垣;属性集合函数依赖的半序同构集[J];计算机学报;1987年10期
相关会议论文 前10条
1 陈长清;冯剑琳;向隆刚;冯玉才;;维之间带函数依赖关系的数据立方的有效计算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 张忠平;曹顺良;李荣;朱扬勇;;基于约束的XML模式规范化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 马垣;张小平;白雪;王旭;刘杨;杨鸿雁;;函数依赖作用域及分类规则的挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵相国;王国仁;张恩德;丁大斌;霍欢;;XML函数依赖的定义及分析[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 马垣;;动态Fuzzy函数依赖[A];第十二届全国数据库学术会议论文集[C];1994年
6 刘云峰;杨冬青;唐世渭;王腾蛟;;基于XML数据交换中的函数依赖转换方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 张忠平;余靖;朱扬勇;;基于函数依赖的XML键的推理及其求解算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 张小峰;张福增;赵永升;李明;;基于函数依赖关系的约简算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
相关重要报纸文章 前1条
1 记者 何屹;美籍华裔科学家获英计算机最高奖[N];科技日报;2008年
相关博士学位论文 前1条
1 吕腾;XML文档的规范化问题研究[D];复旦大学;2003年
相关硕士学位论文 前10条
1 吴佳;多态依赖蕴含判定方法的研究[D];北京工业大学;2015年
2 叶杰敏;不确定数据库及相关理论研究[D];东华大学;2014年
3 李高仕;XML数据库的规范化理论研究[D];湖南师范大学;2008年
4 闫渊;基于信息论和函数依赖的半监督学习[D];吉林大学;2013年
5 覃事东;基于函数依赖改进隐含朴素贝叶斯的性能和鲁棒性[D];吉林大学;2014年
6 苏杰;基于编辑距离和条件函数依赖的酒店数据清洗方法研究[D];南昌大学;2014年
7 张峰;XML不完全信息的动态发现[D];山东大学;2009年
8 侯林娇;基于函数依赖的成批处理模式挖掘方法研究[D];湖南科技大学;2011年
9 曹颖;云计算环境下分布式数据不一致的研究[D];中国海洋大学;2013年
10 周莉;带约束的XML与RDB数据转换关键技术的研究[D];江西师范大学;2005年
,本文编号:2256408
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2256408.html