Hadoop的重复数据清理模型研究与实现
发布时间:2020-08-04 16:46
【摘要】: 当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。 借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。 Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。 本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。 本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP338.8
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP338.8
【参考文献】
相关期刊论文 前5条
1 陈伟,丁秋林;数据清理中编辑距离的应用及Java编程实现[J];电脑与信息技术;2003年06期
2 曾理;王以群;;Hadoop集群和单机数据处理的耗时对比实验[J];硅谷;2009年19期
3 孙牧;;云端的小飞象—Hadoop[J];程序员;2008年10期
4 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
5 邱越峰,田增平,季文
本文编号:2780815
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2780815.html