当前位置:主页 > 科技论文 > 软件论文 >

基于聚类算法的数据清洗研究

发布时间:2021-06-27 13:03
  随着信息技术的快速发展,数据正在爆炸式增长,数据挖掘应运而生。数据挖掘是从数据中获取知识的技术,因此数据的质量尤为重要。但由于人工的疏漏,网络的错误等原因导致数据或多或少存在着各种问题,包括属性值异常、记录重复和数据值缺失等,而这些脏数据将导致挖掘出的信息可信度较低。在数据挖掘之前对数据进行预处理尤为重要,而数据清洗就是数据预处理的关键技术。本文主要研究数据挖掘中的数据清洗技术,重点研究对缺失值数据的清洗。传统的数据清洗的种类包括重复值记录清洗、异常数据的处理和缺失值处理。聚类是数据清洗的重要技术,而基于聚类算法的缺失值填充技术仍然存在填充不稳定,填充精确度不够高等问题。为此,本文对聚类算法进行了改进,并借助于三角不等式性质,提高填充算法的效率,并给出了离散型缺失值填充的方法。实验结果显示,改进后的算法不仅能够有效的填充缺失值记录,还拥有更好的运行效率。本文主要研究内容如下。(1)通过研究发现传统的DBSCAN缺失值填充算法使用固定的Eps邻域半径进行聚类,并且在非均匀密度数据集下填充效果不理想。针对这一缺点,本文对DBSCAN算法进行了改进。改进算法的主要思想:使用可变的MinPts... 

【文章来源】:江苏科技大学江苏省

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 论文研究背景及意义
    1.2 课题研究现状
    1.3 本文主要工作
    1.4 论文组织结构
第2章 数据清洗研究
    2.1 数据清洗定义
    2.2 数据清洗的原理与方法
        2.2.1 数据清洗的原理
        2.2.2 数据清洗的方法
    2.3 数据清洗的基本过程
    2.4 数据清洗的评价标准
        2.4.1 数据质量
        2.4.2 成本效益
        2.4.3 数据集成
    2.5 本章小结
第3章 缺失值清洗和聚类
    3.1 缺失值简述
    3.2 常用的缺失值清洗方法
    3.3 聚类简述
        3.3.1 聚类算法的分类
        3.3.2 聚类分析的基本步骤
    3.4 本章小结
第4章 基于改进DBSCAN的缺失值填充算法研究
    4.1 DBSCAN算法在缺失值填充中的应用
        4.1.1 DBSCAN算法
        4.1.2 填充相似度度量方法
        4.1.3 使用DBSCAN填充缺失值过程描述
        4.1.4 应用评价
    4.2 改进的DBSCAN算法
        4.2.1 算法主要概念和思想
        4.2.2 算法步骤和伪代码
        4.2.3 算法复杂度分析
        4.2.4 实验结果与分析
    4.3 三角不等式策略
    4.4 离散型数据填充策略
    4.5 改进后的缺失值填充算法
    4.6 本章小结
第5章 实验与分析
    5.1 实验环境
    5.2 数据集的选取
    5.3 实验设计
    5.4 实验结果与分析
    5.5 本章小结
第6章 总结与展望
    6.1 全文总结
    6.2 工作展望
参考文献
攻读硕士学位期间发表的学术论文
致谢


【参考文献】:
期刊论文
[1]基于改进凝聚层次聚类算法的变压器绕组及铁心故障诊断研究[J]. 李敏,陈果,沈大千,陈飞洋,罗宇昆,王昕.  高压电器. 2018(01)
[2]xk-split:基于k-medoids的分裂式聚类算法[J]. 陈逸斐,虞慧群.  华东理工大学学报(自然科学版). 2017(06)
[3]数据清洗方法研究综述[J]. 赵一凡,卞良,丛昕.  软件导刊. 2017(12)
[4]一种基于数据质量维度的数据清洗方法[J]. 李琳.  科技创新与应用. 2017(21)
[5]浅谈医学数据常见质量问题及其清洗方法[J]. 武瑞仙,周红.  科技资讯. 2016(06)
[6]完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究[J]. 张彪,韩伟,庞海玉,薛芳,厚磊,王子兴,王钰嫣,姜晶梅.  中国卫生统计. 2015(05)
[7]数据挖掘过程中数据清洗的研究[J]. 孟龙梅.  通化师范学院学报. 2015(04)
[8]缺失偏t正态数据下线性回归模型的统计推断[J]. 吴刘仓,张家茂,李玲雪.  应用数学. 2015(01)
[9]缺失数据插补方法探讨——基于最近邻插补法和关联规则法[J]. 于力超,金勇进,王俊.  统计与信息论坛. 2015(01)
[10]有向图的强连通分量及应用[J]. 吴金全.  软件. 2014(03)

硕士论文
[1]基于多重插补法的因果推断研究[D]. 张冬阳.长春工业大学 2018
[2]农业大数据清洗方法比较研究[D]. 钱学梁.中国农业科学院 2017
[3]改进的模糊聚类算法在电站运行优化中的应用[D]. 潘文凯.华北电力大学 2016
[4]数据清理关键技术在医疗保险管理系统的应用研究[D]. 蔡钟杰.兰州交通大学 2014
[5]一种基于k-means算法和关联规则的缺失数据填补方法[D]. 王策.哈尔滨工程大学 2014
[6]数据清洗系统中不一致数据修复子系统的设计与实现[D]. 门雪莹.哈尔滨工业大学 2013
[7]基于统计学习的数据预处理缺失值清洗方法研究[D]. 曹林.哈尔滨工程大学 2012
[8]基于聚类算法的数据清洗的研究与实现[D]. 张燕.华北电力大学(河北) 2008



本文编号:3252902

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3252902.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ff6c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com