当前位置:主页 > 科技论文 > 软件论文 >

Web大数据环境下的相似重复数据清理

发布时间:2018-05-28 09:58

  本文选题:Web大数据 + 重复数据删除 ; 参考:《计算机工程与设计》2017年03期


【摘要】:为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。
[Abstract]:In order to clean up the similar redundant data in Web big data environment and reduce the time and cost of data storage and management, a Web big data similar repetitive data cleaning method is proposed. The Web data is preprocessed, and a similar hash algorithm is proposed to calculate the similarity of each data information. For the similar data information satisfying a specific threshold, one of them and its replica are retained, and the other data information keeps the address of the data information. The method is used to test the Web data of many websites on Hadoop platform. The experimental results show that the method has good accuracy and data reduction effect.
【作者单位】: 四川师范大学计算机学院;中国科学院计算技术研究所;
【基金】:国家自然科学基金项目(61373162) 四川省科技支撑基金项目(2014GZ007) 可视化计算与虚拟现实四川省重点实验室基金项目(KJ201402)
【分类号】:TP393.09;TP311.13

【相似文献】

相关期刊论文 前10条

1 杨辅祥,刘云超,段智华;数据清理综述[J];计算机应用研究;2002年03期

2 陈海燕,周俊林;数据清理的实现技术[J];新疆职业大学学报;2004年03期

3 夏骄雄;徐俊;吴耿锋;;数据清理中同体不同源数据的数化算法研究[J];计算机工程;2007年01期

4 宋峥嵘;朴春梅;;数据质量与数据清理浅谈[J];今日科苑;2009年17期

5 宋峥嵘;朴春梅;王飞;;文献数据库的数据质量控制与数据清理[J];江苏科技信息;2009年09期

6 郭兴成;;对我国企业数据清理的研究[J];企业技术开发;2011年20期

7 剧伟伟;;浅谈组织机构数据清理的可操作性问题[J];经营管理者;2013年24期

8 吴涤单;;基于数据清理技术的税务征收管理系统[J];电脑知识与技术;2013年30期

9 许翔,毛婕;数据清理技术在软件开发中的应用研究[J];计算机时代;2004年08期

10 张志兵,李华e,

本文编号:1946268


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1946268.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6da6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com