分类型矩阵数据的初始类中心算法设计与实现

发布时间:2021-08-20 12:27
  聚类分析作为大数据研究与应用的重要技术工具,为通讯业、银行、保险以及各大电子商务领域中的应用研究提供理论支持。其中基于划分的聚类算法性能的优劣很大程度上取决于初始类中心的选择。现阶段初始类中心选择算法都是针对普通数据,即一个对象对应一条记录,而在实际应用中,一个对象的描述常常不止一条记录。本文将由多条记录描述的对象称为矩阵型对象,由矩阵型对象构成的数据集称为矩阵数据集。截止目前,针对矩阵型数据还没有有效的算法来选择初始聚类中心。若使用已有的算法对其处理,则需要压缩和转换矩阵型数据,这样通常会丢失很多信息且不能够全面反映用户的实际行为。因此本文针对分类型矩阵数据的初始类中心选择进行了探索和研究,提出了新的算法,并与现有的经典算法进行实验对比与分析,主要工作如下:(1)提出了一种基于密度和距离的初始类中心选择算法。根据分类型数据属性值的频率定义了矩阵对象的密度和矩阵对象间的距离,扩展了最大最小距离算法,从而实现初始类中心的选择。(2)提出了一种基于密度和成对约束的初始类中心选择算法。根据属性值的频率和矩阵对象间的平均距离给出新的矩阵对象密度定义,结合了成对约束信息来对初始类中心的选择进行指... 

【文章来源】:山西大学山西省

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

分类型矩阵数据的初始类中心算法设计与实现


第一个类中心的生成过程

模型图,数据挖掘,模型,模块


分类型矩阵数据的初始类中心算法设计与实现40(4)可维护性。系统易修复(恢复)和易改进,具有对故障的检测、诊断、修复以及每次重启系统时本系统会重新进行初始化等功能。5.6可视化系统的设计与实现5.6.1可视化系统的整体架构基于MATLAB的初始类中心选择系统采用三层架构模型,分别为数据访问层、业务逻辑层和表示层。其中数据访问层的主要功能是负责数据的访问,并保存整个系统运行生成的数据和原始数据,原始数据以.mat文件形式存储于目录下。业务逻辑层是三层架构的核心部分,即整个系统的核心成分。数据的加载、参数的设定和传递、各个初始类中心算法模型的实现等都是在业务逻辑层中完成。与业务逻辑层关联比较密切的是表示层,本层是负责显示系统运行后回传的数据信息和负责实现用户与系统的交互。5.6.2可视化系统的设计在科研学术工作完成的情况下,结合实际需求,我们将这些需求转为实际的物理实现,主要针对不同初始类中心算法在不同数据集上实现类中心的选择,从而选出相对较优的初始类中心。本系统采用数据挖掘模型,包括数据的选择、数据预处理、建立与优化目标模型和解释与评估算法模型等过程。本系统使用的数据挖掘模型如图5.1所示。图5.1数据挖掘模型本章使用MATLAB语言、GUI技术、聚类分析和初始类中心算法,实现了基于MATLAB的初始类中心算法比较平台。系统界面设计美观、操作简单。本系统主要包括六个模块,分别为DataSet模块、Parameter模块、Algorithm模块、IndexChart模块、DatasetInformation模块以及AlgorithmIntroduction模块,如图5.2所示。其中,各个模块功能的详细介绍将在下文进行详细阐述。

主页面,算法,平台,数据集


第五章初始类中心选择系统的设计与实现41图5.2初始类中心算法比较平台主页面5.6.3DataSet模块在DataSet模块,通过下拉框选择一种数据集,选中之后,点击LoadDataset按钮,完成数据集的加载。同样可通过下拉框选择所选数据集对应的标签集,再点击LoadLabel按钮完成标签集的加载。5.6.4Parameter模块Parameter模块包括两个参数,分别为类的个数K和运行次数times。在K所对应的位置,输入类的个数,其中K的默认值为1。在times所对应的位置,输入运行次数,默认值为1。5.6.5Algorithm模块Algorithm模块显示的是4种初始类中心聚类算法,每次点击一种算法,则界面右侧以表格形式显示出运行结果。比如ICAFCMD算法在mutagenesis2数据集上的运行结果如图5.3所示。

【参考文献】:
期刊论文
[1]一种分类型矩阵数据的初始聚类中心选择算法[J]. 田璐,曹付元,余丽琴.  计算机工程. 2020(05)
[2]基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法[J]. 李顺勇,张苗苗,曹付元.  计算机研究与发展. 2019(06)
[3]面向分类型矩阵数据的无监督孤立点检测算法[J]. 吴晓林,曹付元.  深圳大学学报(理工版). 2019(01)
[4]基于凝聚层次的驾驶行为聚类与异常检测方法[J]. 惠飞,彭娜,景首才,周琪,贾硕.  计算机工程. 2018(12)
[5]APT样本的有效网络特征筛选算法[J]. 李翼宏,杜镇宇,胡劲松.  计算机工程与应用. 2019(03)
[6]基于一般分布区间数的不确定EFCM-ID聚类算法[J]. 毛伊敏,王嘉炜,卢欣荣,毛丁慧.  计算机工程. 2018(10)
[7]一种基于词袋模型的块数据聚类算法[J]. 曹付元,牛文婷.  山西大学学报(自然科学版). 2016(02)
[8]一种基于稀疏度和距离的初始类中心选择算法[J]. 曹付元,武鹏鹏.  山西大学学报(自然科学版). 2015(01)
[9]基于平均密度优化初始聚类中心的k-means算法[J]. 邢长征,谷浩.  计算机工程与应用. 2014(20)
[10]最小方差优化初始聚类中心的K-means算法[J]. 谢娟英,王艳娥.  计算机工程. 2014(08)

硕士论文
[1]属性耦合的类中心选择算法设计与实现[D]. 温杰.山西大学 2018
[2]基于粗糙集的类别数据聚类算法研究[D]. 储璐璐.青岛科技大学 2014
[3]分类属性数据聚类算法研究[D]. 王敏.江苏大学 2008



本文编号:3353495

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3353495.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2facd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com