一种不完备数据三支聚类填充方法

发布时间:2023-02-08 20:26
  随着科学技术的快速发展,我国已进入了信息时代。近些年数据爆发式地增长,数据的存储及获取能力有了很大的提高。对于如何从这些数据中得到有价值的信息,成为科学研究领域不可忽视的一门课题。聚类分析拥有着很长的研究历史,并在众多领域都得到了应用。可是在实际环境中,由于人为因素、历史原因、数据获取、数据存储、数据传输等情况下常常有数据缺失的情况,造成了聚类的难点。因为缺失的数据不能直接用传统的聚类方法进行聚类,而且数据的缺失无法避免。那对缺失数据的适当处理就成为了不可避免的技术难题,将直接影响到聚类效果的好坏。针对这个问题,论文提出了一种不完备数据三支聚类填充方法。首先,采用平均值填充法对缺失的数据进行初始化填充,然后再用对k个聚类中心点的选取进行优化的k-means算法对数据进行聚类。这种方法避免了传统k-means聚类算法容易陷入局部最优解的状况,并加快了算法速度。最后考虑用聚类结果同一个簇中的完备数据对之前的缺失数据进行重新填充,来尽可能减小均值填充法带来的数据误差。传统数据填充常常对缺失数据只进行单次填充,没有充分利用已知数据信息,而且上述过程中k个点的初始选取对k-means聚类结果仍然...

【文章页数】:33 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要工作
    1.4 组织结构
第二章 理论基础
    2.1 不完备数据
        2.1.1 产生原因
        2.1.2 不完备信息系统
    2.2 三支决策的区间表示
        2.2.1 三支决策概念
        2.2.2 基于三支决策的聚类结果区间表示
    2.3 缺失数据处理
第三章 基于聚类算法的数据填充
    3.1 k个点的选择
        3.1.1 k数目的选择—肘部法则
        3.1.2 k个初始点的选择
    3.2 k-means算法对源数据分类
        3.2.1 局部最优解
        3.2.2 与改进的k-means算法对比
    3.3 填充缺失数据
        3.3.1 初始化填补方法
        3.3.2 聚类填补方法
        3.3.3 三支聚类填充的必要性
    3.4 本章小结
第四章 基于三支聚类的数据填充
    4.1 多次k-means算法对源数据分类
    4.2 聚类成员标签对齐
        4.2.1 聚类集成
        4.2.2 相同类簇求交集
    4.3 构造矩阵
    4.4 实验分析
        4.4.1 实验数据与环境
        4.4.2 评价标准
        4.4.3 实验结果及分析
    4.5 本章小结
总结与展望
参考文献
攻读硕士学位期间所发表的学术论文
致谢



本文编号:3738318

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3738318.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户42107***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com