改进的ETL框架及其数据清洗方法研究
发布时间:2021-03-22 15:58
随着信息化技术的普及与发展,各行各业积累了大量的数据,为了充分利用这些数据,数据挖掘技术广泛的应用于各个领域。数据仓库是数据挖掘的基础之一,ETL(Extract,Transformation and Loading)用来实现数据仓库中数据的抽取、清洗、转换与装载,决定了数据仓库的数据质量。由于数据源中存在数据重复、数据缺失、数据错误等问题,导致数据质量大大降低,而数据质量严重影响了数据挖掘的效率和分析决策的准确率,所以数据清洗作为提高数据质量的主要方法,是ETL中的重要内容。本文为了提高ETL在大数据环境下的灵活性和工作效率,改进了传统的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并对其中的数据清洗方法进行了系统研究,具体的研究内容如下:(1)针对传统的ETL框架,本文设计实现了ECL-TL框架。该框架通过引入中间库将数据清洗和数据转换完全分离,降低了各组件之间的耦合度。同时,提供了高效的数据清洗解决方案,封装了数据清洗相关的算法库、规则库和评估库。(2)在重复记录清洗方面,本文提出了一种基于等价关系的完全重复记录清洗方法...
【文章来源】:西华大学四川省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题的研究背景与选题意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 存在的问题
1.4 论文的主要工作
1.5 论文组织结构
2 预备知识
2.1 ETL
2.2 数据质量及评估方法
2.2.1 数据质量定义及评价维度
2.2.2 数据质量评估方法
2.3 本章小结
3 ECL-TL框架设计
3.1 框架设计
3.1.1 ECL组件
3.1.2 中间库
3.1.3 TL组件
3.2 ECL-TL框架的特点
3.3 本章小结
4 重复记录清洗
4.1 重复记录介绍
4.2 基于等价关系的完全重复记录清洗方法
4.2.1 方法步骤
4.2.2 时间复杂度分析
4.2.3 实验分析
4.3 基于属性层次结构的相似重复记录检测方法
4.3.1 基本步骤
4.3.2 音码聚类
4.3.3 文本聚类
4.3.4 实验分析
4.4 本章小结
5 基于信息值质量评价的低质量数据清洗方法
5.1 信息值质量评价
5.2 权重设置
5.3 低质量数据清洗
5.4 实验分析
5.5 本章小结
6 ECL-TL框架的实现与应用
6.1 数据处理层
6.2 数据应用层
6.3 数据展示层
6.4 本章小结
7 总结与展望
7.1 全文总结
7.2 工作展望
参考文献
攻读硕士学位期间发表论文及科研成果
致谢
【参考文献】:
期刊论文
[1]聚类算法综述[J]. 章永来,周耀鉴. 计算机应用. 2019(07)
[2]基于分块和滑窗技术的相似重复记录检测算法研究[J]. 陈亮,杜璐,胡康. 计算机应用与软件. 2019(04)
[3]基于聚类的连续型数据缺失值充填方法[J]. 李国和,杨绍伟,吴卫江,郑艺峰. 计算机工程. 2019(09)
[4]劣质数据上代价敏感决策树的建立[J]. 齐志鑫,王宏志,周雄,李建中,高宏. 软件学报. 2019(03)
[5]DBSCAN聚类算法的参数配置方法研究[J]. 宋金玉,郭一平,王斌. 计算机技术与发展. 2019(05)
[6]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[7]基于深度学习的时间序列数据异常检测方法[J]. 胡姣姣,王晓峰,张萌,张德鹏,胡绍林. 信息与控制. 2019(01)
[8]缺失数据的维数增量式特征选择[J]. 刘吉超,王锋,宋鹏. 计算机工程与应用. 2019(17)
[9]基于DCNDA算法的数据异常检测[J]. 蒋华,季丰,王鑫,王慧娇. 计算机工程与设计. 2018(11)
[10]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁. 清华大学学报(自然科学版). 2018(12)
硕士论文
[1]劣质数据按需清洗的关键技术研究[D]. 齐志鑫.哈尔滨工业大学 2018
[2]工业大数据相似重复记录数据清洗关键技术研究[D]. 杨巧巧.青岛大学 2018
[3]基于Spark的大数据清洗框架设计与实现[D]. 金翰伟.浙江大学 2016
本文编号:3094099
【文章来源】:西华大学四川省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题的研究背景与选题意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 存在的问题
1.4 论文的主要工作
1.5 论文组织结构
2 预备知识
2.1 ETL
2.2 数据质量及评估方法
2.2.1 数据质量定义及评价维度
2.2.2 数据质量评估方法
2.3 本章小结
3 ECL-TL框架设计
3.1 框架设计
3.1.1 ECL组件
3.1.2 中间库
3.1.3 TL组件
3.2 ECL-TL框架的特点
3.3 本章小结
4 重复记录清洗
4.1 重复记录介绍
4.2 基于等价关系的完全重复记录清洗方法
4.2.1 方法步骤
4.2.2 时间复杂度分析
4.2.3 实验分析
4.3 基于属性层次结构的相似重复记录检测方法
4.3.1 基本步骤
4.3.2 音码聚类
4.3.3 文本聚类
4.3.4 实验分析
4.4 本章小结
5 基于信息值质量评价的低质量数据清洗方法
5.1 信息值质量评价
5.2 权重设置
5.3 低质量数据清洗
5.4 实验分析
5.5 本章小结
6 ECL-TL框架的实现与应用
6.1 数据处理层
6.2 数据应用层
6.3 数据展示层
6.4 本章小结
7 总结与展望
7.1 全文总结
7.2 工作展望
参考文献
攻读硕士学位期间发表论文及科研成果
致谢
【参考文献】:
期刊论文
[1]聚类算法综述[J]. 章永来,周耀鉴. 计算机应用. 2019(07)
[2]基于分块和滑窗技术的相似重复记录检测算法研究[J]. 陈亮,杜璐,胡康. 计算机应用与软件. 2019(04)
[3]基于聚类的连续型数据缺失值充填方法[J]. 李国和,杨绍伟,吴卫江,郑艺峰. 计算机工程. 2019(09)
[4]劣质数据上代价敏感决策树的建立[J]. 齐志鑫,王宏志,周雄,李建中,高宏. 软件学报. 2019(03)
[5]DBSCAN聚类算法的参数配置方法研究[J]. 宋金玉,郭一平,王斌. 计算机技术与发展. 2019(05)
[6]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[7]基于深度学习的时间序列数据异常检测方法[J]. 胡姣姣,王晓峰,张萌,张德鹏,胡绍林. 信息与控制. 2019(01)
[8]缺失数据的维数增量式特征选择[J]. 刘吉超,王锋,宋鹏. 计算机工程与应用. 2019(17)
[9]基于DCNDA算法的数据异常检测[J]. 蒋华,季丰,王鑫,王慧娇. 计算机工程与设计. 2018(11)
[10]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁. 清华大学学报(自然科学版). 2018(12)
硕士论文
[1]劣质数据按需清洗的关键技术研究[D]. 齐志鑫.哈尔滨工业大学 2018
[2]工业大数据相似重复记录数据清洗关键技术研究[D]. 杨巧巧.青岛大学 2018
[3]基于Spark的大数据清洗框架设计与实现[D]. 金翰伟.浙江大学 2016
本文编号:3094099
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3094099.html