面向分类型数据的模糊聚类算法研究
发布时间:2020-11-18 10:21
随着信息技术在工业界的迅猛发展,数据的规模与人们获取的数据也与日俱增,对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术,是在海量数据中发现数据间内在关系的过程。聚类分析技术是数据挖掘中对数据处理的一种重要方法。由于数据不断呈现出属性类型的多样性、规模的海量性、分布的不均匀性,不同的数据类型需要不同的聚类算法。目前,对数值型数据的聚类分析取得很多的成果,而在实际应用中存在大量的分类型数据。由于分类型数据不具有数值型数据固有的几何特性,因而在聚类算法和模型上与数值型数据有较大不同,近年来针对分类型数据聚类算法的研究得到了广泛的关注。模糊聚类通过将模糊集理论应用到聚类分析中,提高对数据的模糊处理能力,能较为清晰、客观地反映现实事物,因而在许多领域被广泛应用。模糊k-modes(FKM)算法是模糊聚类中备受关注的一种算法,具有局部寻优能力强且收敛速度快的特点,成为分类型数据模糊聚类算法关注的热点。但FKM算法对初始中心点的选取较为敏感,算法以不同的初始中心进行聚类会得到不同的结果,影响最终的聚类结果。此外FKM算法由于采用迭代的搜索技术,同时解空间内存在大量局部最优点,因此易陷入局部最优,而无法得到全局最优。针对以上问题,本文开展了以下工作:(1)提出结合离群点检测的初始中心选择算法。针对FKM算法对初始中心选取敏感这一问题,通过调整初始中心选择过程中距离与密度之间的关系,加大初始中心选择中距离所占的权重,使得寻找到的初始中心更具有分布性。同时,引入基于距离的离群点检测技术,对改进初始中心选择后得到的候选数据集进行筛选,将候选数据集中的离群度较大的点剔除。实验结果表明,改进的初始中心选择方法提高FKM算法的准确率与精度,降低FKM算法对初始中心选取的敏感程度。(2)提出基于改进遗传算法的模糊聚类算法(IGAFKM)。将遗传算法与模糊聚类算法相结合,利用遗传算法的随机搜索提高模糊k-modes算法的全局寻优能力,加快算法的收敛速度。遗传算法是一种全局优化算法,通过模拟自然界生物的进化过程搜索问题的最优解,具有算法简单,搜索范围广泛的特点。根据种群中个体的多样性,对遗传算法的交叉与变异算子进行动态调整,以保证整个种群的多样性,避免算法收敛到局部最优,加快算法向全局最优点的收敛过程,从而提高FKM算法的全局寻优能力。实验结果表明,改进遗传算法的模糊聚类算法(IGAFKM)与FKM算法,传统遗传模糊聚类算法(GAFKM)相比在收敛速度上有所提升,同时IGAFKM算法的准确率也优于FKM算法与传统遗传模糊聚类算法(GAFKM)算法。
【学位单位】:西南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
图 4-2 算法运行时间与数据量之间的关系从实验结果可以看出 FKM 算法的目标函数平均值较大,过早的收敛到局部最优值,GA-FKM 算法增强了全局搜索能力,较 FKM 算法相比提高了全局寻优能力,IGAFKM 算法在计算速度和效率上与 FKM 算法,GA-FKM 算法相比更为突出,IGAFKM 算法较 GA-FKM 算法相比提高了全局寻优能力,取到了目标函数的全局最小值。经过初始中心选取后,降低了算法对初始中心的依赖程度,提高了算法的准确率,同时由于对遗传操作中交叉和变异算子的自适应调整,增强了种群的多样性,使得算法收敛到全局最优解的能力大大加强,加快了算法的收敛速度。FKM 算法与 IGAFKM 算法随着种群数目的增大,所需的处理时间也随之增加,在处理相同数据的情况下,IGAFKM 算法由于全局搜索能力的提高,又加入了初始中心的选择过程,在处理相同数据量的数据时需要更多的时间。4.10 小结
【参考文献】
本文编号:2888611
【学位单位】:西南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13
【部分图文】:
图 4-2 算法运行时间与数据量之间的关系从实验结果可以看出 FKM 算法的目标函数平均值较大,过早的收敛到局部最优值,GA-FKM 算法增强了全局搜索能力,较 FKM 算法相比提高了全局寻优能力,IGAFKM 算法在计算速度和效率上与 FKM 算法,GA-FKM 算法相比更为突出,IGAFKM 算法较 GA-FKM 算法相比提高了全局寻优能力,取到了目标函数的全局最小值。经过初始中心选取后,降低了算法对初始中心的依赖程度,提高了算法的准确率,同时由于对遗传操作中交叉和变异算子的自适应调整,增强了种群的多样性,使得算法收敛到全局最优解的能力大大加强,加快了算法的收敛速度。FKM 算法与 IGAFKM 算法随着种群数目的增大,所需的处理时间也随之增加,在处理相同数据的情况下,IGAFKM 算法由于全局搜索能力的提高,又加入了初始中心的选择过程,在处理相同数据量的数据时需要更多的时间。4.10 小结
【参考文献】
相关期刊论文 前10条
1 张永库;尹灵雪;孙劲光;;基于改进的遗传算法的模糊聚类算法[J];智能系统学报;2015年04期
2 王颖洁;;模糊聚类分析在数据挖掘中的应用研究[J];大连大学学报;2011年03期
3 王小姣;徐夫田;单国杰;;模糊C-均值聚类算法的改进[J];微型机与应用;2010年12期
4 朱永春;万敏;;浅析数据挖掘技术[J];电脑知识与技术;2010年02期
5 宋娇;葛临东;;一种遗传模糊聚类算法及其应用[J];计算机应用;2008年05期
6 赵锋;薛惠锋;王伟;;基于复合形遗传算法的K-means优化聚类方法[J];航空计算技术;2006年05期
7 何大阔;王福利;毛志忠;;遗传算法在离散变量优化问题中的应用研究[J];系统仿真学报;2006年05期
8 张伟;周霆;陈芸;邹汉斌;;动态的模糊K-Modes初始化算法[J];计算机工程与设计;2006年04期
9 王家耀;张雪萍;周海燕;;一个用于空间聚类分析的遗传K-均值算法[J];计算机工程;2006年03期
10 任子武;伞冶;;自适应遗传算法的改进及在系统辨识中应用研究[J];系统仿真学报;2006年01期
本文编号:2888611
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2888611.html