当前位置:主页 > 科技论文 > 软件论文 >

基于不确定数据聚类算法的研究与改进

发布时间:2024-07-10 20:37
  近年来,随着不确定性数据的广泛出现以及数据挖掘技术的不断兴起,对不确定数据内在信息挖掘手段的研究也逐渐得到了人们的关注。聚类算法作为数据挖掘中的经典方法之一,如何将其运用于难以解释的不确定数据集,已然成为了重要的研究课题。区间型符号数据作为属性不确定数据的重要表现形式,本文对现有的不确定数据聚类算法展开讨论,分别提出了基于模糊C-均值(FCM)与基于DBSCAN的不确定区间数聚类算法,以此提高相应不确定聚类算法的运行效率。首先针对不确定区间数聚类算法中,区间数内的点通常假设成服从均匀分布,难以表达其真实属性,本文基于四分位数思想设计了适用于一般分布区间数的距离度量——MQ(median quartile-spacing)距离,准确刻画了属性不确定数据。由于FCM的聚类结果受到初始聚类中心影响较大并且隶属度更新速度慢,本文基于密度思想采用随机抽样策略设计了初始聚类中心的优化选取方法SDCS(sampling-based density center selection),提升了算法精度;接着利用竞争学习思想构建了相对加速隶属度更新策略,减少了算法的运行时间,于此提出了一种基于一般分布属性...

【文章页数】:59 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 论文的选题背景和意义
    1.2 国内外研究现状
        1.2.1 基于划分的不确定聚类研究
        1.2.2 基于密度的不确定聚类研究
    1.3 论文的主要内容
    1.4 论文的结构安排
第二章 不确定数据及聚类算法研究
    2.1 不确定数据的研究
        2.1.1 不确定数据的来源
        2.1.2 不确定数据的分类
    2.2 确定数据聚类算法研究
        2.2.1 聚类的基本定义
        2.2.2 常用确定聚类算法综述
    2.3 本章小结
第三章 基于划分的不确定EFCM-ID聚类算法
    3.1 相关研究及问题
    3.2 不确定数据处理
    3.3 FCM算法介绍
    3.4 EFCM-ID算法
        3.4.1 基于抽样的密度中心选取方法SDCS
        3.4.2 相对加速隶属度更新策略
    3.5 算法分析
    3.6 实验分析
        3.6.1 实验环境
        3.6.2 数据准备
        3.6.3 评价指标
        3.6.4 MQ 距离的有效性实验
        3.6.5 EFCM-ID 算法有效性实验
        3.6.6 算法比较实验
    3.7 本章小结
第四章 基于密度的不确定ADBSCAN-ID聚类算法
    4.1 相关研究及问题
    4.2 DBSCAN算法介绍
    4.3 ADBSCAN-ID算法
        4.3.1 相关工作和定义
        4.3.2 邻域差分扩张法
    4.4 算法分析
    4.5 实验分析
        4.5.1 ADBSCAN-ID 算法有效性实验
        4.5.2 算法比较实验
    4.6 本章小结
第五章 总结与展望
    5.1 本文总结
    5.2 研究展望
参考文献
致谢
攻读学位期间的研究成果



本文编号:4004698

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4004698.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户902c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com