基于Hadoop架构网站的数据清洗研究

发布时间:2021-07-10 10:57
  随着大数据时代和人工智能领域的发展,数据的存储和挖掘处理凸显的愈加重要,同时出现了数据质量降低的问题。数据清洗能够有效处理数据质量问题。以国内某电商网站开展促销活动前一个月的用户点击日志数据作为清洗对象,针对其存在的重复数据问题,采取合适的清洗方法进行处理,目的是提高日志数据的清洗效率。对于日志重复数据的清洗,按照重复数据的类型分为两大块内容,一块是清洗完全重复数据,一块是清洗相似重复数据。首先,对完全重复数据的清洗。利用Hadoop分布式文件系统进行日志数据的存储。通过其副本管理和心跳机制,保证日志数据存储的高效性和完整性;利用Map Reduce强大的并行计算能力结合自定义清洗规则,统计完全重复数据的数目和剔除多余的完全重复数据。实验可以实现所有完全重复数据的清除。其次,清洗相似重复数据需要能够准确高效地识别相似重复数据。针对相似重复数据的检测,提出了基于字符频率的编辑距离算法。该算法是在传统编辑距离算法的基础上考虑了字符频率,使得字符匹配综合考虑的信息更多。通过编辑距离算法和基于字符频率的编辑距离算法的对比试验,后者对重复字符的检测查准率达到了80.4%,在传统编辑距离算法检测查... 

【文章来源】:华北理工大学河北省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于Hadoop架构网站的数据清洗研究


数据集中的重复数据

数据,数据清理,重复记录,数据集中


华北理工大学硕士学位论文-34-3.4.2完全重复数据清理后的实验结果通过部分数据样本可以直观的看到完全重复数据完全被清洗,如图13所示。图13清洗完全重复数据Fig.13Cleaningcompleteduplicatedata通过Eclipse运行完程序输出的运行结果可以看出:其中,完全重复数据一共有35840条。Eclipse运行控制台显示结果如图14所示。图14Eclipse运行结果Fig.14Eclipserunresults3.5实验结果分析从结果截图可以看出:经过MapReduce的处理,日志数据中的所有完全重复数据不仅去除了完全重复记录,而且还统计得到了数据集中每条记录的重复条数。

基于Hadoop架构网站的数据清洗研究


Eclipse运行结果

【参考文献】:
期刊论文
[1]基于能量过滤的不确定时间序列数据清洗方法[J]. 孙纪舟,李建中.  智能计算机与应用. 2019(04)
[2]多用户网络拥塞中错误数据实时清理方法仿真[J]. 李晓.  计算机仿真. 2019(06)
[3]基于SNM算法的大数据量中文商品清洗方法[J]. 张苗苗,苏勇.  计算机与数字工程. 2019(03)
[4]基于聚类和神经网络对建筑节能气候数据清洗的算法[J]. 李昌华,卜亮亮,刘欣.  计算机应用. 2018(S1)
[5]Hadoop实现点击流日志的数据清洗[J]. 赵鑫.  无线互联科技. 2018(09)
[6]海洋数据仓库的数据清洗规则应用研究[J]. 李郅明,余荣君,叶馥榕.  海洋开发与管理. 2018(02)
[7]一种基于动态标签的RFID不确定性数据清洗算法[J]. 王万良,顾熙仁,赵燕伟.  计算机科学. 2014(S1)
[8]一种高效的检测相似重复记录的方法[J]. 邱越峰,田增平,季文贇,周傲英.  计算机学报. 2001(01)

硕士论文
[1]融合多元信息的字符串近似匹配算法研究及应用[D]. 牛增贤.北京交通大学 2019
[2]大数据清洗算法研究与系统平台搭建[D]. 耿昭阳.吉林大学 2019
[3]大数据环境下文本数据相似重复记录检测方法研究[D]. 余通.东北电力大学 2018
[4]面向重复记录检测的数据清洗算法的研究[D]. 张攀.西安电子科技大学 2018
[5]中文重复记录清洗的相关算法的研究[D]. 王芳.青岛大学 2018
[6]XML相似重复数据的检测和清洗研究[D]. 杨晓东.青岛大学 2018
[7]面向电网大数据的数据清洗子系统设计与实现[D]. 雷雨.北京邮电大学 2018
[8]基于Hadoop分布式平台的重复数据删除技术研究[D]. 陶然.厦门大学 2017
[9]农业大数据清洗方法比较研究[D]. 钱学梁.中国农业科学院 2017
[10]基于数据挖掘的数据清洗及其评估模型的研究[D]. 邹杰.北京邮电大学 2017



本文编号:3275787

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3275787.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6875c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com