基于N-Gram算法的数据清洗技术
本文选题:相似度 切入点:相似重复记录 出处:《沈阳工业大学学报》2017年01期
【摘要】:针对数据库中存在的大量相似重复数据,对相似重复记录的属性结构以及产生原因进行了分析,采用N-Gram算法对数据记录进行计算,得到代表每条记录属性的键值,即N-Gram值.依据该键值将数据库中的数据记录进行排序处理,建立有序的数据库,并对其中的数据记录进行相似度计算.运用排列合并的清洗思想对识别出来的相似重复数据记录进行清洗,实验结果表明,N-Gram算法有效提高了相似重复数据记录的查全率和查准率.
[Abstract]:In view of the large number of similar duplicate data in the database, this paper analyzes the attribute structure and the reason of the similar duplicate record, and calculates the data record by using N-Gram algorithm, and obtains the key value representing each record attribute, that is, the N-Gram value.According to the key value, the data records in the database are sorted, the ordered database is established, and the similarity of the data records is calculated.The method of sorting and merging is used to clean the identified similar repeated data records. The experimental results show that the N-Gram algorithm can effectively improve the recall and precision rate of the similar repeated data records.
【作者单位】: 沈阳农业大学信息与电气工程学院;沈阳理工大学自动化与电气工程学院;
【基金】:辽宁省教育厅科学研究项目(LG201610)
【分类号】:TP311.13
【相似文献】
中国期刊全文数据库 前10条
1 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期
2 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期
3 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期
4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
5 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期
6 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期
7 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期
8 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期
9 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
10 王咏梅;嵇晓;汪恒杰;冯安平;;面向多数据源的数据清洗关键技术的研究[J];科技资讯;2009年01期
中国重要会议论文全文数据库 前10条
1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年
4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年
中国重要报纸全文数据库 前1条
1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
中国博士学位论文全文数据库 前1条
1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 高宝;不确定性RFID数据清洗算法研究[D];南京信息工程大学;2015年
2 叶晨;基于众包的数据清洗关键技术的研究[D];哈尔滨工业大学;2015年
3 张晓东;基于业务模型的数据清洗与整合平台的设计与实现[D];电子科技大学;2015年
4 艾超;针对在线产品支撑数据的过滤和分析系统的研究与设计[D];电子科技大学;2015年
5 金翰伟;基于Spark的大数据清洗框架设计与实现[D];浙江大学;2016年
6 王江;数据清洗技术研究及清洗框架的设计与实现[D];内蒙古大学;2016年
7 陈飞;基于MapReduce的数据清洗算法研究[D];昆明理工大学;2016年
8 李宁宁;大数据清洗系统中优化技术的研究与实现[D];哈尔滨工业大学;2016年
9 盛丹丹;面向农业领域知识库构建的数据清洗方法优化研究[D];中国农业科学院;2016年
10 郑纪玲;数据清洗在构建POI数据仓库中的研究与应用[D];中国矿业大学;2016年
,本文编号:1728944
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1728944.html