一种客户关系数据库相似重复记录清洗算法
本文选题:客户关系 + 相似重复记录 ; 参考:《衡水学院学报》2014年01期
【摘要】:客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度.在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并.
[Abstract]:There are a large number of customer records in the customer relationship database, many of which constitute similar duplicate records. Detecting, cleaning and merging the similar duplicate records can improve the utilization of storage space and speed up the query of records. Based on the study of customer records, a similar duplicate record cleaning algorithm for customer relational database is proposed. The algorithm first sorts the records, sets the attribute weight and the similarity gate value of the records. The similarity degree of adjacent records is calculated to determine whether the records are similar or not. Finally, the detected similar duplicate records are cleaned and merged.
【作者单位】: 福建江夏学院电子信息科学学院;
【基金】:福建省教育厅A类科技项目(JA12335)
【分类号】:TP311.13
【参考文献】
相关期刊论文 前3条
1 程昌秀;于滨;;一种基于规则的模糊中文地址分词匹配方法[J];地理与地理信息科学;2011年03期
2 张雪英;闾国年;李伯秋;陈文君;;基于规则的中文地址要素解析方法[J];地球信息科学学报;2010年01期
3 刘哲;夏秀峰;宋晓燕;林桐;;一种中文地址类相似重复信息的检测方法[J];小型微型计算机系统;2008年04期
【共引文献】
相关期刊论文 前10条
1 张小平,马垣;KDD中的数据清理技术研究[J];鞍山科技大学学报;2003年02期
2 陈伟,丁秋林;具有数据清理功能的交互式数据迁移及应用[J];吉林大学学报(信息科学版);2004年02期
3 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
4 陆娟;蒋平;吴伟;;PGIS支持下的警务信息地图位置采集方式探讨[J];地理信息世界;2011年06期
5 陆娟;汤国安;蒋平;吴伟;;公安业务地理信息关联采集方式的研究[J];地球信息科学学报;2010年05期
6 代昆玉;胡滨;;基于数据仓库的数据清理技术概述[J];贵州大学学报(自然科学版);2007年03期
7 余明朗;明小娜;龙毅;张雪英;;GIS环境下中文命令的规则匹配与语义解析[J];地理与地理信息科学;2012年06期
8 汤廖文;;增城警用标准地址库建设及管理[J];城市勘测;2013年03期
9 王曙;吉雷静;张雪英;赵仁亮;陈晓丹;余浩;;面向网页文本的地理要素变化检测[J];地球信息科学学报;2013年05期
10 庄海东;张鸿恩;;基于规则的中文地址匹配系统[J];福建电脑;2013年09期
相关会议论文 前1条
1 陈X;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
相关博士学位论文 前10条
1 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
2 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
3 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年
4 陈珉;分布式空间数据库主动数据更新研究[D];武汉大学;2004年
5 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
6 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
7 张瑞军;基于信息链的智能信息处理关键技术研究[D];武汉理工大学;2007年
8 夏骄雄;数据资源聚类预处理及其应用研究[D];上海大学;2007年
9 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年
10 戴东波;序列数据的相似性查询研究[D];复旦大学;2009年
相关硕士学位论文 前10条
1 侯佳奇;社保联网审计中增量数据分布式处理的研究[D];哈尔滨工程大学;2010年
2 王爽;GIS与空间数据挖掘技术在环境污染事故应急处理系统中的应用研究[D];中国海洋大学;2010年
3 叶奇旺;数据挖掘技术在手机行业客户关系管理中的应用研究[D];东华大学;2011年
4 范晓燕;数据挖掘技术在新生儿数据分析中的应用研究[D];东华大学;2011年
5 魏勤勤;在线交互与学习平台中个性化信息挖掘研究[D];西安电子科技大学;2009年
6 王元;基于XML的异构数据源管理的研究[D];吉林大学;2011年
7 崔文;基于柔性统计系统的港口企业多维度统计模式构建[D];北京交通大学;2011年
8 赵飞国;面向数据挖掘的数据预处理系统设计与实现[D];北京交通大学;2011年
9 周兴强;RFID数据流清洗技术及其系统实现[D];大连海事大学;2011年
10 王婕;分布式网络数据采集关键技术研究[D];中北大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 朱建伟,王泽民;地理编码原理及其本地化解决方案[J];北京测绘;2004年02期
2 张鹤;孔令彦;陈倬;孙乐兵;;城市地址编码发展历史及现状分析[J];测绘通报;2008年07期
3 张林曼;吴升;;地理编码系统中地址匹配引擎的设计与实现[J];测绘信息与工程;2008年06期
4 高昭良;;城市地理空间字典——地理编码[J];城市勘测;2008年02期
5 胡青;徐建华;王志海;;GIS数据库中地址自动匹配方法研究[J];测绘与空间地理信息;2008年06期
6 江绵康;;上海市基础地理要素编码标准编制研究[J];地理与地理信息科学;2006年02期
7 高巍;;在大城市实现有线电视用户地址标准化的设想[J];广播与电视技术;2007年10期
8 蒋景f,
本文编号:1891808
本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/1891808.html