当前位置:主页 > 科技论文 > 软件论文 >

基于动态可配置规则的数据清洗方法

发布时间:2018-06-12 02:48

  本文选题:大数据 + 数据质量 ; 参考:《计算机应用》2017年04期


【摘要】:针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。
[Abstract]:In view of the problems of reusability, scalability and flexibility, a data cleaning method based on dynamic configuration rules is proposed in the traditional data cleaning method, which leads to the reusability, scalability and flexibility of the system by hard coding to achieve business logic. The DRDCM. method supports complex logic operations among various types of rules and supports a variety of dirty numbers. According to the repair behavior, set data detection, data repair and data conversion in one, it has the characteristics of cross domain, reusable, configurable, and extensible. First, it describes the concept of data detection and data repair in the DRDCM method, the implementation steps and the implementation of the algorithm. Secondly, it expounds the various rules type and rules supported by the DRDCM method. In the end, the DRDCM method is implemented, and the actual project data set verifies that the implementation system has a high accuracy rate of discarding the repair behavior in the dirty data repair, especially for the properties (such as identity card numbers) that need to comply with the legal code rules (such as the ID number). The accuracy of the system can reach the result of the 100%. experiment, and the DRDCM implementation system is shown. The system can integrate dynamically configurable rules seamlessly into multiple data sources and many different applications and the performance of the system will not decrease with the increase in the number of rules. This further validates the feasibility of the DRDCM method in the real environment.
【作者单位】: 中国科学院新疆理化技术研究所多语种信息技术研究室;中国科学院大学计算机与控制学院;新疆民族语音语言信息处理重点实验室;
【基金】:新疆维吾尔自治区高技术研究发展计划项目(201512103) 中国科学院西部之光人才培养计划项目(XBBS201313) 新疆维吾尔自治区青年科技创新人才培养工程计划项目(2014721033)~~
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期

2 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期

3 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期

4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期

5 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期

6 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期

7 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期

8 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期

9 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期

10 王咏梅;嵇晓;汪恒杰;冯安平;;面向多数据源的数据清洗关键技术的研究[J];科技资讯;2009年01期

相关会议论文 前10条

1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年

3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年

4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年

5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年

相关重要报纸文章 前1条

1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年

相关博士学位论文 前1条

1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年

相关硕士学位论文 前10条

1 高宝;不确定性RFID数据清洗算法研究[D];南京信息工程大学;2015年

2 叶晨;基于众包的数据清洗关键技术的研究[D];哈尔滨工业大学;2015年

3 张晓东;基于业务模型的数据清洗与整合平台的设计与实现[D];电子科技大学;2015年

4 艾超;针对在线产品支撑数据的过滤和分析系统的研究与设计[D];电子科技大学;2015年

5 金翰伟;基于Spark的大数据清洗框架设计与实现[D];浙江大学;2016年

6 王江;数据清洗技术研究及清洗框架的设计与实现[D];内蒙古大学;2016年

7 陈飞;基于MapReduce的数据清洗算法研究[D];昆明理工大学;2016年

8 李宁宁;大数据清洗系统中优化技术的研究与实现[D];哈尔滨工业大学;2016年

9 盛丹丹;面向农业领域知识库构建的数据清洗方法优化研究[D];中国农业科学院;2016年

10 郑纪玲;数据清洗在构建POI数据仓库中的研究与应用[D];中国矿业大学;2016年



本文编号:2007952

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2007952.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户abeaa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com