基于动态权重的k-modes聚类算法

发布时间:2020-12-26 00:57
  随着信息技术的迅猛发展,数据的规模与日俱增、类型日益复杂,如何对现实中海量数据进行有效的处理、分析和应用成为迫在眉睫的课题。在这样的背景形势下,数据挖掘技术应运而生,而且在各行各业得到了广泛应用。聚类分析是数据挖掘领域最重要的分支之一,是根据某种相似度度量对数据集进行划分的数据挖掘技术。目前,数值型数据的聚类分析取得了很多成果,但实际的数据库和大型数据集不仅包括数值型数据,也包括大量的分类属性数据,如生物信息数据、疫情防控数据等。由于分类型数据不具有数值型数据固有的几何特性,针对数值型数据的聚类方法并不适用于分类型数据的聚类。因此,研究分类型数据聚类分析算法是非常必要的。论文详细介绍了聚类分析的概念及聚类分析中常用的数据结构、相似度量、目标函数等,分析了k-modes算法及其各种改进算法,对算法在相异度度量和初始中心选择两方面进行了改进,具体工作如下:(1)以信息共现知识为基础,基于数据对象属性之间的相互依存关系,建立了数据集属性之间的依存关联矩阵,提出了一种加权相互依存冗余度的距离度量方法,定义数据对象属性值之间的距离由内部距离和外部距离两部分的加权和组成,两个数据的距离为数据对象所... 

【文章来源】:延安大学陕西省

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 引言
    1.1 研究背景及意义
    1.2 聚类分析的研究现状
        1.2.1 聚类分析算法
        1.2.2 分类型数据的距离度量方法
        1.2.3 分类型数据的初始中心选择方法
    1.3 主要工作
    1.4 论文的组织结构
第二章 聚类分析
    2.1 聚类分析定义
    2.2 聚类分析方法分类
    2.3 聚类分析中的数据类型
    2.4 聚类分析中的数据结构
    2.5 聚类算法中的相异度度量
    2.6 聚类准则函数
    2.7 聚类算法评价标准
    2.8 小结
第三章 k-modes聚类算法
    3.1 k-means算法
    3.2 k-modes算法
    3.3 k-modes算法的相异度度量
    3.4 k-modes算法的迭代策略
    3.5 k-modes算法分析
    3.6 k-modes算法的改进
        3.6.1 Huang﹐s k-modes算法的扩展算法
        3.6.2 改进相异度度量方法
        3.6.3 改进初始中心选择方法
    3.7 小结
第四章 基于加权相互依存冗余度距离的k-modes算法
    4.1 基本概念
    4.2 基于加权相互依存冗余度的距离度量
        4.2.1 内部距离
        4.2.2 相互依存度矩阵
        4.2.3 外部距离
        4.2.4 加权相互依存冗余度距离
    4.3 基于加权相互依存冗余度距离的改进k-modes算法
        4.3.1 改进k-modes算法的步骤
        4.3.2 改进k-modes算法的复杂度分析
    4.4 实验结果与分析
        4.4.1 实验环境
        4.4.2 测试数据集
        4.4.3 聚类结果评价指标
        4.4.4 程序结构
        4.4.5 实验结果与分析
    4.5 小结
第五章 基于密度和距离动态权重的初始中心选择方法
    5.1 基于密度和距离的初始中心选择方法
    5.2 基于密度与距离动态权重的初始中心选择方法
    5.3 基于改进距离的离群点检测
    5.4 算法步骤
    5.5 实验结果与分析
        5.5.1 实验环境
        5.5.2 测试数据集与评价指标
        5.5.3 实验结果与分析
    5.6 小结
第六章 总结与展望
    6.1 工作总结
    6.2 工作展望
参考文献
致谢
攻读学位期间发表论文


【参考文献】:
期刊论文
[1]聚类算法综述[J]. 章永来,周耀鉴.  计算机应用. 2019(07)
[2]大数据聚类算法综述[J]. 海沫.  计算机科学. 2016(S1)
[3]K-means聚类算法研究综述[J]. 王千,王成,冯振元,叶金凤.  电子设计工程. 2012(07)
[4]基于新的距离度量的K-Modes聚类算法[J]. 梁吉业,白亮,曹付元.  计算机研究与发展. 2010(10)
[5]基于粗糙集的改进K-Modes聚类算法[J]. 白亮,梁吉业,曹付元.  计算机科学. 2009(01)
[6]基于近邻传播算法的半监督聚类[J]. 肖宇,于剑.  软件学报. 2008(11)
[7]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇.  软件学报. 2008(01)
[8]一种基于动态近邻选择模型的聚类算法[J]. 金阳,左万利.  计算机学报. 2007(05)
[9]动态的模糊K-Modes初始化算法[J]. 张伟,周霆,陈芸,邹汉斌.  计算机工程与设计. 2006(04)
[10]用改进的遗传算法实现架构恢复[J]. 李青山,陈平.  软件学报. 2003(07)

硕士论文
[1]面向分类型数据的模糊聚类算法研究[D]. 王思杰.西南大学 2018
[2]分类型数据的聚类算法研究[D]. 黄苑华.广东工业大学 2016
[3]相异度量的k-modes聚类算法研究[D]. 陈彩棠.太原理工大学 2012



本文编号:2938722

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2938722.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d264b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com