当前位置:主页 > 科技论文 > 软件论文 >

改进的ETL框架及其数据清洗方法研究

发布时间:2021-03-22 15:58
  随着信息化技术的普及与发展,各行各业积累了大量的数据,为了充分利用这些数据,数据挖掘技术广泛的应用于各个领域。数据仓库是数据挖掘的基础之一,ETL(Extract,Transformation and Loading)用来实现数据仓库中数据的抽取、清洗、转换与装载,决定了数据仓库的数据质量。由于数据源中存在数据重复、数据缺失、数据错误等问题,导致数据质量大大降低,而数据质量严重影响了数据挖掘的效率和分析决策的准确率,所以数据清洗作为提高数据质量的主要方法,是ETL中的重要内容。本文为了提高ETL在大数据环境下的灵活性和工作效率,改进了传统的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并对其中的数据清洗方法进行了系统研究,具体的研究内容如下:(1)针对传统的ETL框架,本文设计实现了ECL-TL框架。该框架通过引入中间库将数据清洗和数据转换完全分离,降低了各组件之间的耦合度。同时,提供了高效的数据清洗解决方案,封装了数据清洗相关的算法库、规则库和评估库。(2)在重复记录清洗方面,本文提出了一种基于等价关系的完全重复记录清洗方法... 

【文章来源】:西华大学四川省

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 课题的研究背景与选题意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 存在的问题
    1.4 论文的主要工作
    1.5 论文组织结构
2 预备知识
    2.1 ETL
    2.2 数据质量及评估方法
        2.2.1 数据质量定义及评价维度
        2.2.2 数据质量评估方法
    2.3 本章小结
3 ECL-TL框架设计
    3.1 框架设计
        3.1.1 ECL组件
        3.1.2 中间库
        3.1.3 TL组件
    3.2 ECL-TL框架的特点
    3.3 本章小结
4 重复记录清洗
    4.1 重复记录介绍
    4.2 基于等价关系的完全重复记录清洗方法
        4.2.1 方法步骤
        4.2.2 时间复杂度分析
        4.2.3 实验分析
    4.3 基于属性层次结构的相似重复记录检测方法
        4.3.1 基本步骤
        4.3.2 音码聚类
        4.3.3 文本聚类
        4.3.4 实验分析
    4.4 本章小结
5 基于信息值质量评价的低质量数据清洗方法
    5.1 信息值质量评价
    5.2 权重设置
    5.3 低质量数据清洗
    5.4 实验分析
    5.5 本章小结
6 ECL-TL框架的实现与应用
    6.1 数据处理层
    6.2 数据应用层
    6.3 数据展示层
    6.4 本章小结
7 总结与展望
    7.1 全文总结
    7.2 工作展望
参考文献
攻读硕士学位期间发表论文及科研成果
致谢


【参考文献】:
期刊论文
[1]聚类算法综述[J]. 章永来,周耀鉴.  计算机应用. 2019(07)
[2]基于分块和滑窗技术的相似重复记录检测算法研究[J]. 陈亮,杜璐,胡康.  计算机应用与软件. 2019(04)
[3]基于聚类的连续型数据缺失值充填方法[J]. 李国和,杨绍伟,吴卫江,郑艺峰.  计算机工程. 2019(09)
[4]劣质数据上代价敏感决策树的建立[J]. 齐志鑫,王宏志,周雄,李建中,高宏.  软件学报. 2019(03)
[5]DBSCAN聚类算法的参数配置方法研究[J]. 宋金玉,郭一平,王斌.  计算机技术与发展. 2019(05)
[6]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源.  情报科学. 2019(03)
[7]基于深度学习的时间序列数据异常检测方法[J]. 胡姣姣,王晓峰,张萌,张德鹏,胡绍林.  信息与控制. 2019(01)
[8]缺失数据的维数增量式特征选择[J]. 刘吉超,王锋,宋鹏.  计算机工程与应用. 2019(17)
[9]基于DCNDA算法的数据异常检测[J]. 蒋华,季丰,王鑫,王慧娇.  计算机工程与设计. 2018(11)
[10]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁.  清华大学学报(自然科学版). 2018(12)

硕士论文
[1]劣质数据按需清洗的关键技术研究[D]. 齐志鑫.哈尔滨工业大学 2018
[2]工业大数据相似重复记录数据清洗关键技术研究[D]. 杨巧巧.青岛大学 2018
[3]基于Spark的大数据清洗框架设计与实现[D]. 金翰伟.浙江大学 2016



本文编号:3094099

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3094099.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6d84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com