当前位置:主页 > 科技论文 > 软件论文 >

大数据环境下相似重复记录数据清洗关键技术研究

发布时间:2023-04-22 01:22
  随着互联网和移动互联网的蓬勃发展,大量的数据正在以极快的速度扩展,全球已进入了大数据时代。大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。一般情况下,数据挖掘总是假设数据是“干净”和一致的,然而现实中感知数据往往是冗余的、不完整的、错误的,且存在不一致性,这些现象的存在将会降低数据质量,严重影响数据挖掘的结果,从而影响决策的正确制定。因而,对采集到的大数据首先进行数据预处理,提高数据质量,对数据挖掘有着重要的意义。在大数据预处理中,数据清洗是保证数据质量的重要手段之一,在数据清洗中,相似重复记录清洗常用于数据去冗余处理中,去除大数据中大量的冗余数据,这对提高数据质量起着至关重要的作用。而在相似重复记录清洗过程中,数据相似度检测是基础。目前对数据相似度检测方法的研究基本集中在基于字面的字符串相似度检测方面,并且已取得了一定的研究成果,但是根据现有方法所计算出的数据相似度检测结果精确度不是很高;而在基于语义的词语相似度检测方面,研究成果相对较少,而且相关的检测方法还存在许多不足之处。因此需要研究高精度的数据相似度检测方法,对提高数据质量具有...

【文章页数】:54 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 引言
    1.2 国内外研究现状
        1.2.1 数据清洗研究现状
        1.2.2 基于字面的字符串相似度检测方法研究现状
        1.2.3 基于语义的词语相似度检测方法研究现状
    1.3 本文主要研究工作
    1.4 本文论文结构
第二章 相关基础理论知识介绍
    2.1 数据质量和数据清洗
        2.1.1 数据质量
        2.1.2 数据清洗
    2.2 属性清洗
        2.2.1 缺失值清洗
        2.2.2 错误值清洗
    2.3 相似重复记录清洗
        2.3.1 相似重复记录的概念
        2.3.2 相似重复记录的相关清除方法
        2.3.3 相似重复记录的相关检测方法
    2.4 词语语义相似度概念
    2.5 知网简介
    2.6 Python仿真工具简介
    2.7 本章小结
第三章 基于编辑距离的字符串相似度检测方法
    3.1 引言
    3.2 现有的基于编辑距离的字符串相似度检测方法
        3.2.1 经典的基于编辑距离的字符串相似度检测方法
        3.2.2 联合LD和 LCS的字符串相似度检测方法
    3.3 新型的基于编辑距离的字符串相似度检测方法
    3.4 实验结果与分析
    3.5 本章小结
第四章 基于知网的词语语义相似度检测方法
    4.1 引言
    4.2 现有的基于知网的词语语义相似度检测方法
        4.2.1 基于义原距离的词语语义相似度检测方法
        4.2.2 基于义原深度与密度的词语语义相似度检测方法
    4.3 新型的基于知网的词语语义相似度检测方法
    4.4 实验结果与分析
    4.5 本章小结
第五章 总结与展望
    5.1 本文工作总结
    5.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢



本文编号:3796632

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3796632.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a9c3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com