基于函数依赖与条件约束的数据修复方法
[Abstract]:With the development of economy and information technology, a lot of data are produced in many applications. However, due to many factors such as hardware, manual operation and multi-source data integration, there are many serious data quality problems in these applications, especially inconsistency, which makes it impossible to manage data effectively. Therefore, the first task is to develop new data cleaning technology to improve data quality to support subsequent data management and analysis. The existing work mainly studies the data repair technology based on functional dependency, that is, describing data consistency constraints by functional dependency. By changing the attribute values of some tuples in the database (rather than increasing / deleting tuples), the entire database follows the set of functional dependencies. From the point of view of consistent constraint description, functional dependency is not the only way of expression, but there are other expressions, such as hard constraint, quantity constraint, equivalent constraint, non-equivalent constraint and so on. However, with the increase of the types of consistency constraints, the processing difficulty is much more difficult than that of only functional dependency scenarios. In order to improve the quality of data, we consider using function dependency and other conformance constraints to express the consistency constraints of the database, and then design a data repair algorithm based on this. The experimental results show that the proposed method is more efficient.
【作者单位】: 华东师范大学计算机科学与软件工程学院数据科学与工程研究院;
【基金】:国家重点基础研究发展计划(973)(2012CB316203) 国家自然科学基金(61370101,U1501252,61532021) 上海市教委科研创新重点项目(14ZZ045)~~
【分类号】:TP311.13
【参考文献】
相关期刊论文 前4条
1 刘辉平;金澈清;周傲英;;一种基于模式的实体解析算法[J];计算机学报;2015年09期
2 李建中;刘显敏;;大数据的一个重要方面:数据可用性[J];计算机研究与发展;2013年06期
3 宫学庆;金澈清;王晓玲;张蓉;周傲英;;数据密集型科学与工程:需求和挑战[J];计算机学报;2012年08期
4 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
【共引文献】
相关期刊论文 前10条
1 陈喜乐;朱本用;刘伟榕;;大数据分析的理论与实践挑战[J];自然辩证法研究;2016年07期
2 吕杰;;大数据背景下工业企业统计工作的转变[J];经营与管理;2016年07期
3 万少华;张引;;无线传感器网络中高能效的Bezier曲线路由算法[J];计算机研究与发展;2016年07期
4 张凯;;基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例[J];中国科技期刊研究;2016年07期
5 韩逢庆;宋志坚;余锐;;海量图片快速去重技术[J];计算机应用;2016年07期
6 潘峗;;新型数据中心网络的体系结构探究[J];电子世界;2016年13期
7 周鸿斌;支国强;李田富;耿超;;大数据技术在环境影响评价中的应用展望[J];环境科学导刊;2016年S1期
8 张维国;陈海艳;;大数据在高职院校教师教学质量多元评价体系中的研究与分析[J];现代计算机(专业版);2016年18期
9 邹积鑫;李世峰;于健;齐凤亮;刘冠华;;用于假币溯源的海量电子物证快速处理方法[J];刑事技术;2016年03期
10 段志刚;吴耕锐;薄鸟;;面向武警云灾备的数据同步技术研究综述[J];电子世界;2016年12期
【二级参考文献】
相关期刊论文 前8条
1 尹刚;王怀民;袁霖;朱沿旭;史殿习;米海波;;构造基于互联网的可信软件生产服务系统[J];计算机科学与探索;2011年10期
2 杨鹤林;;数据监护:美国高校图书馆的新探索[J];大学图书馆学报;2011年02期
3 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
4 田秀霞;王晓玲;高明;周傲英;;数据库服务——安全与隐私保护[J];软件学报;2010年05期
5 高明;金澈清;王晓玲;田秀霞;周傲英;;数据世系管理技术研究综述[J];计算机学报;2010年03期
6 杨芙清;吕建;梅宏;;网构软件技术体系:一种以体系结构为中心的途径[J];中国科学(E辑:信息科学);2008年06期
7 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
8 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
【相似文献】
相关期刊论文 前10条
1 熊中敏;郝忠孝;;基于路径函数依赖和键约束的复杂对象嵌套结构规范化[J];计算机工程;2006年04期
2 卫强;周晓沧;;基于属性预扫描的不确定性函数依赖挖掘[J];清华大学学报(自然科学版);2009年06期
3 程录庆;;条件函数依赖与数据质量控制[J];信息系统工程;2009年11期
4 彭湘凯;陈富强;;函数依赖对商覆盖立方体生成效率的影响[J];计算机工程与应用;2009年34期
5 安秋生;;粒计算支持的粗糙函数依赖的研究[J];计算机工程与应用;2010年10期
6 程录庆;;数据约束表达研究——比较条件函数依赖与传统函数依赖[J];洛阳师范学院学报;2011年11期
7 耿寅融;刘波;;基于条件函数依赖的数据库一致性检测研究[J];计算机工程与应用;2012年03期
8 杜晓昕;王波;戴学丰;;函数依赖判定可行域的人工鱼群属性约简[J];计算机工程与应用;2012年09期
9 李丁月;刘建勋;翟海军;;一种增量发现条件函数依赖的算法[J];计算机工程与科学;2013年08期
10 马垣;属性集合函数依赖的半序同构集[J];计算机学报;1987年10期
相关会议论文 前10条
1 陈长清;冯剑琳;向隆刚;冯玉才;;维之间带函数依赖关系的数据立方的有效计算[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 张忠平;曹顺良;李荣;朱扬勇;;基于约束的XML模式规范化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 马垣;张小平;白雪;王旭;刘杨;杨鸿雁;;函数依赖作用域及分类规则的挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 赵相国;王国仁;张恩德;丁大斌;霍欢;;XML函数依赖的定义及分析[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 马垣;;动态Fuzzy函数依赖[A];第十二届全国数据库学术会议论文集[C];1994年
6 刘云峰;杨冬青;唐世渭;王腾蛟;;基于XML数据交换中的函数依赖转换方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 张忠平;余靖;朱扬勇;;基于函数依赖的XML键的推理及其求解算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 张小峰;张福增;赵永升;李明;;基于函数依赖关系的约简算法研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
相关重要报纸文章 前1条
1 记者 何屹;美籍华裔科学家获英计算机最高奖[N];科技日报;2008年
相关博士学位论文 前1条
1 吕腾;XML文档的规范化问题研究[D];复旦大学;2003年
相关硕士学位论文 前10条
1 吴佳;多态依赖蕴含判定方法的研究[D];北京工业大学;2015年
2 叶杰敏;不确定数据库及相关理论研究[D];东华大学;2014年
3 李高仕;XML数据库的规范化理论研究[D];湖南师范大学;2008年
4 闫渊;基于信息论和函数依赖的半监督学习[D];吉林大学;2013年
5 覃事东;基于函数依赖改进隐含朴素贝叶斯的性能和鲁棒性[D];吉林大学;2014年
6 苏杰;基于编辑距离和条件函数依赖的酒店数据清洗方法研究[D];南昌大学;2014年
7 张峰;XML不完全信息的动态发现[D];山东大学;2009年
8 侯林娇;基于函数依赖的成批处理模式挖掘方法研究[D];湖南科技大学;2011年
9 曹颖;云计算环境下分布式数据不一致的研究[D];中国海洋大学;2013年
10 周莉;带约束的XML与RDB数据转换关键技术的研究[D];江西师范大学;2005年
,本文编号:2138944
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2138944.html