当前位置:主页 > 科技论文 > 软件论文 >

面向混合数据集的聚类方法研究

发布时间:2021-01-19 05:31
  同时包含数值型和分类型的混合型数据集在各个领域中普遍存在,包括医学、生物学、金融业等。由于分类型和数值型数据具有不同的特性,在对未标记的数据进行聚类时,两种类型的数据需要区别对待,设计适当的相似性或相异性度量方法起着重要的作用。为了使两种类型的数据可以统一处理,本文从两个角度提出了处理混合型数据的聚类算法。1)基于单纯形向量映射的聚类算法:首先,基于单纯形理论,将分类型属性数据映射到数值向量上,并通过理论证明同一属性的任意值映射后的向量在欧氏距离下距离相同,这样,分类型属性数据转换为了数值型属性数据。然后,将转换后的纯数值型数据应用到K-Means算法框架。实验结果表明:在UCI的4个分类型数据集上,基于单纯形向量映射的聚类算法与Ng的K-modes算法、Cao的K-modes算法和传统向量映射聚类算法相比,将聚类结果的准确度分别提高了1.72%,2.74%和1.86%;在4个混合型数据集上的平均聚类准确度上,基于单纯形向量映射的聚类算法较传统映射聚类算法和K-Prototype算法分别提高了2.68%和2.22%。2)基于熵加权的聚类算法:首先,通过离散化策略将数值型属性数据离散化;... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

面向混合数据集的聚类方法研究


聚类分析过程处理Fig2.1Clusteranalysisprocess

流程图,单纯形,聚类算法,向量


第三章 基于单纯形向量映射的聚类算法第三章 基于单纯形向量映射的聚类算法了统一处理分类型属性和数值型属性的混合数据集,本章提出了一向量映射的聚类算法,首先根据单纯形理论提出向量映射策略,将映射到数值向量上,这样,混合数据集转换为了纯数值型数据集,用针对纯数值型数据集的聚类算法来处理,为了考察本章提出的单在聚类分析中的作用,本章选用最经典的 K-Means 算法来对转换后聚类。算法流程图如图 3.1 所示。

3维,维空间,维数,向量


第三章 基于单纯形向量映射的聚类算法‖apl aql‖ ( ¤ ¥ ) 个解,为了简化计算结果,要找出维度最小的向于一个具有¢个值的分类型属性,为了保证任意的维数至少为¢ 。的¢个向量可以形成¢ 维的正则单纯形,每个中,¢维空间中只存在一种正则单纯形,记为¢维,62]。因此,在¢ 维正则单纯形存在于¢ 维毕。.1,属性 的各个分类值可以映射到 维空间维数为¢ 。 2 维正则单纯形(左图)和 3 维正则单纯形(三角形,右图是一个正四面体。

【参考文献】:
期刊论文
[1]融合单纯形映射与熵加权的聚类方法[J]. 安宁,江思源,唐晨,杨矫云.  计算机工程与应用. 2020(09)
[2]基于分层聚类算法的地区风电出力典型场景选取方法[J]. 林俐,费宏运,刘汝琛,潘险险.  电力系统保护与控制. 2018(07)
[3]一种适用于混合型分类数据的聚类算法[J]. 林强,唐加山.  计算机工程与应用. 2019(01)
[4]基于泛化能力的K-均值最佳聚类数确定方法[J]. 张雄,赵礼峰.  计算机技术与发展. 2017(09)
[5]优化加权核K-means聚类初始中心点的SLIC算法[J]. 杨艳,许道云.  计算机科学与探索. 2018(03)
[6]属性加权的类属型数据非模聚类[J]. 陈黎飞,郭躬德.  软件学报. 2013(11)
[7]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼.  计算机科学. 2000(04)

博士论文
[1]数据挖掘技术与关联规则挖掘算法研究[D]. 毛国君.北京工业大学 2003

硕士论文
[1]基于遗传算法的并行化K-means聚类算法研究[D]. 马通.浙江理工大学 2018
[2]K-均值聚类算法初始中心选取相关问题的研究[D]. 吴晓蓉.湖南大学 2008
[3]分类属性数据聚类算法研究[D]. 王敏.江苏大学 2008



本文编号:2986428

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2986428.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5a725***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com