当前位置:主页 > 科技论文 > 软件论文 >

分布式大数据多函数依赖冲突检测

发布时间:2018-10-08 10:18
【摘要】:关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突出.分布式环境下的函数依赖冲突检测通常需要进行数据迁移,而且不同的数据迁移方法会对检测效率产生一定的影响.该文提出了一种基于等价类的分布式环境多个函数依赖冲突检测的方法,给出了冲突检测的响应时间代价模型.由于分布式环境函数依赖冲突检测问题的任务分配问题为NP-难问题,多项式时间内难以得到最优解,该文将不一致性检测响应时间最小化问题转化为整数规划问题,并给出了近似最优解.针对集群规模和函数依赖个数大小不同的情况,分别给出了不同的任务分配策略,并在检测过程中实现了动态负载均衡,有效提高了负载均衡度和检测效率.在真实和人工数据集上的实验表明,相对于集中式检测方法以及基于Hadoop的naive方法,该文提出的多函数依赖冲突检测方法检测效率有明显的提升,且在数据规模、节点个数和函数依赖个数等方面扩展性能良好.
[Abstract]:One of the main problems of data quality in relational database is the inconsistency of data. In order to find inconsistent data, functional dependency conflict detection is needed. SQL technology can be used to detect inconsistency in centralized database, but in distributed environment, functional dependency conflict detection is more challenging, especially in big data background. In distributed environment, function dependency conflict detection usually requires data migration, and different data migration methods have a certain impact on detection efficiency. In this paper, a method of multi-functional dependency conflict detection in distributed environment based on equivalence class is proposed, and the response time cost model of conflict detection is given. Because the task assignment problem of distributed environment function dependent conflict detection problem is NP- problem, it is difficult to obtain the optimal solution in polynomial time. In this paper, the problem of minimizing the response time of inconsistent detection is transformed into an integer programming problem. The approximate optimal solution is given. In view of the different size of cluster and the number of functional dependencies, different task allocation strategies are proposed, and dynamic load balancing is realized in the detection process, which effectively improves the load balancing degree and detection efficiency. Experiments on real and artificial datasets show that compared with the centralized detection method and the naive method based on Hadoop, the efficiency of the multi-function dependency conflict detection method proposed in this paper is significantly improved, and the efficiency of the proposed multi-function dependency conflict detection method is improved in the data scale. The number of nodes and the number of function dependencies have good expansion performance.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家“九七三”重点基础研究发展规划项目基金(2012CB316203) 国家自然科学基金(61502390,61472321,61332006,61272121) 国家“八六三”高技术研究发展计划项目基金(2015AA015307)资助~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 熊中敏;郝忠孝;;基于路径函数依赖和键约束的复杂对象嵌套结构规范化[J];计算机工程;2006年04期

2 卫强;周晓沧;;基于属性预扫描的不确定性函数依赖挖掘[J];清华大学学报(自然科学版);2009年06期

3 程录庆;;条件函数依赖与数据质量控制[J];信息系统工程;2009年11期

4 彭湘凯;陈富强;;函数依赖对商覆盖立方体生成效率的影响[J];计算机工程与应用;2009年34期

5 安秋生;;粒计算支持的粗糙函数依赖的研究[J];计算机工程与应用;2010年10期

6 程录庆;;数据约束表达研究——比较条件函数依赖与传统函数依赖[J];洛阳师范学院学报;2011年11期

7 耿寅融;刘波;;基于条件函数依赖的数据库一致性检测研究[J];计算机工程与应用;2012年03期

8 杜晓昕;王波;戴学丰;;函数依赖判定可行域的人工鱼群属性约简[J];计算机工程与应用;2012年09期

9 李丁月;刘建勋;翟海军;;一种增量发现条件函数依赖的算法[J];计算机工程与科学;2013年08期

10 马垣;属性集合函数依赖的半序同构集[J];计算机学报;1987年10期

相关会议论文 前10条

1 陈长清;冯剑琳;向隆刚;冯玉才;;维之间带函数依赖关系的数据立方的有效计算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 张忠平;曹顺良;李荣;朱扬勇;;基于约束的XML模式规范化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

3 马垣;张小平;白雪;王旭;刘杨;杨鸿雁;;函数依赖作用域及分类规则的挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 赵相国;王国仁;张恩德;丁大斌;霍欢;;XML函数依赖的定义及分析[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

5 马垣;;动态Fuzzy函数依赖[A];第十二届全国数据库学术会议论文集[C];1994年

6 刘云峰;杨冬青;唐世渭;王腾蛟;;基于XML数据交换中的函数依赖转换方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

7 张忠平;余靖;朱扬勇;;基于函数依赖的XML键的推理及其求解算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

8 张小峰;张福增;赵永升;李明;;基于函数依赖关系的约简算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

10 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

相关重要报纸文章 前1条

1 记者 何屹;美籍华裔科学家获英计算机最高奖[N];科技日报;2008年

相关博士学位论文 前1条

1 吕腾;XML文档的规范化问题研究[D];复旦大学;2003年

相关硕士学位论文 前10条

1 吴佳;多态依赖蕴含判定方法的研究[D];北京工业大学;2015年

2 叶杰敏;不确定数据库及相关理论研究[D];东华大学;2014年

3 李高仕;XML数据库的规范化理论研究[D];湖南师范大学;2008年

4 闫渊;基于信息论和函数依赖的半监督学习[D];吉林大学;2013年

5 覃事东;基于函数依赖改进隐含朴素贝叶斯的性能和鲁棒性[D];吉林大学;2014年

6 苏杰;基于编辑距离和条件函数依赖的酒店数据清洗方法研究[D];南昌大学;2014年

7 张峰;XML不完全信息的动态发现[D];山东大学;2009年

8 侯林娇;基于函数依赖的成批处理模式挖掘方法研究[D];湖南科技大学;2011年

9 曹颖;云计算环境下分布式数据不一致的研究[D];中国海洋大学;2013年

10 周莉;带约束的XML与RDB数据转换关键技术的研究[D];江西师范大学;2005年



本文编号:2256408

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2256408.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d76e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com