基于自适应小生境文化基因算法的数据聚类
发布时间:2021-01-16 09:50
在数据挖掘中,数据聚类是一项重要的任务。数据聚类通过优化特定的聚类指标来完成聚类划分任务,已知是一种NP难问题。进化算法是一种全局搜索算法,被大量用于解决这类NP难问题。然而,已有的进化聚类算法存在速度慢、精度不高等问题。为了解决这种问题,研究者将进化算法与k均值相结合用于数据聚类。虽然基于k均值的进化聚类算法取得了良好的聚类效果,但其仍旧存在一些问题可能会限制其聚类性能:1)进化聚类算法通常使用固定强度的k均值算子;2)算法难以有效维持种群多样性,存在过早收敛现象;3)进化聚类算法需要预先设置聚类簇数。研究一种高效的进化聚类算法仍旧是一项具有挑战性的难题,此研究也将推动进化计算领域以及聚类的理论发展。本文的主要工作和成果如下:1.针对进化聚类算法中k均值算子的使用方法过于固定的缺点,展示了一种广义k均值使用框架,该框架允许在进化搜索过程中任意调整k均值的使用强度以及频率,并基于该框架,提出了一种自适应策略来动态地调整k均值的强度和频率。此外,为了防止算法过早陷入局部最优,提出了一种反向搜索策略,并基于该策略实现了自适应k均值算子,最终提出了一种基于自适应反向k均值算子的文化基因算法用...
【文章来源】:浙江工业大学浙江省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图3-1两个GKUF的实例
f f max< f fmax),k 均值的频率τ将被调整为: maxminmin1ffff c设为 1。其中,minf 、 maxf 和 f 分别代表当前种群适应度的最小值,而 c1是一个常数值。等式中的差值maxminf f 被用于归一化。公式,k 均值算子将以低频率应用于收敛程度高的种群。如果多样 f f max≥ f fmax),则 k 均值算子的强度σ将被计算为: maxminmax2ffff c设为 1。其中,c2是一个常数值。因此,基于该公式,当种群具有高 均值算子将以高强度用于改善进化期间的解。通过联合使用上述公式KO策略旨在根据进化期间种群多样性信息适当地调整 k 均值算子的
(c) Art_20图 3-3 人工数据集Figure 3-3. Artificial data sets所使用的真实数据集有 BalanceScale、Car、Musk、Gesture、Landsat、Turkiye和 MFCCs,其取自 UCI 知识库[79]。BalanceScale 数据有 625 个心理实验结果实例,被分为三类(即,平衡刻度指向左、向右和平衡)。因此,该数据集应有三个簇。Car 数据由 1728 个数据点组成,有 6 个属性,4 种类型的汽车评估结果。Musk 数据包含 476 个具有 166 个属性的实例,其根据分子的确切形状或构造来描述分子。这些分子被认为是麝香或非麝香。因此,数据中有两个簇。Gesture 数据由手势的时间片段组成,用于预处理视频。这里所使用的数据集来自于原始文件,其中记录了用户 B 在讲述故事 1 时的手势。该数据集共有 1073 个实例,将被划分为 5 个簇,其对应于 5 种手势阶段。Landsat 数据包含卫星图像中 3*3 邻域中像素的多光谱值。该数据具有 36 个属性,4435 个实例,并且将被聚类为 6 个簇,对应于 6 种
【参考文献】:
期刊论文
[1]基于概率分布的多峰演化算法[J]. 陈伟能,杨强. 计算机研究与发展. 2017(06)
[2]一种MapReduce架构下基于遗传算法的K-Medoids聚类[J]. 赖向阳,宫秀军,韩来明. 计算机科学. 2017(03)
[3]类进化算法驱动的动态电力经济调度优化[J]. 陈皓,潘晓英. 电子学报. 2017(01)
[4]直觉模糊小生境的自适应遗传算法求解旅行商问题[J]. 梅海涛,王毅,华继学. 计算机科学. 2016(12)
[5]基于两阶段搜索算法的多峰函数优化[J]. 李焕哲,吴志健,郭肇禄,刘会超,汪慎文. 电子学报. 2016(06)
[6]基于混合遗传模拟退火算法的SaaS构件优化放置[J]. 孟凡超,初佃辉,李克秋,周学权. 软件学报. 2016(04)
[7]求解随机时变背包问题的精确算法与进化算法[J]. 贺毅朝,王熙照,李文斌,赵书良. 软件学报. 2017(02)
[8]教育数据挖掘研究进展综述[J]. 周庆,牟超,杨丹. 软件学报. 2015(11)
[9]基于内部罚函数的进化算法求解约束优化问题[J]. 崔承刚,杨晓飞. 软件学报. 2015(07)
[10]一种新的并行自动聚类算法:CGC-Cluster[J]. 杜欣,刘大刚,倪友聪,张开活,谢大同. 小型微型计算机系统. 2015(06)
本文编号:2980608
【文章来源】:浙江工业大学浙江省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图3-1两个GKUF的实例
f f max< f fmax),k 均值的频率τ将被调整为: maxminmin1ffff c设为 1。其中,minf 、 maxf 和 f 分别代表当前种群适应度的最小值,而 c1是一个常数值。等式中的差值maxminf f 被用于归一化。公式,k 均值算子将以低频率应用于收敛程度高的种群。如果多样 f f max≥ f fmax),则 k 均值算子的强度σ将被计算为: maxminmax2ffff c设为 1。其中,c2是一个常数值。因此,基于该公式,当种群具有高 均值算子将以高强度用于改善进化期间的解。通过联合使用上述公式KO策略旨在根据进化期间种群多样性信息适当地调整 k 均值算子的
(c) Art_20图 3-3 人工数据集Figure 3-3. Artificial data sets所使用的真实数据集有 BalanceScale、Car、Musk、Gesture、Landsat、Turkiye和 MFCCs,其取自 UCI 知识库[79]。BalanceScale 数据有 625 个心理实验结果实例,被分为三类(即,平衡刻度指向左、向右和平衡)。因此,该数据集应有三个簇。Car 数据由 1728 个数据点组成,有 6 个属性,4 种类型的汽车评估结果。Musk 数据包含 476 个具有 166 个属性的实例,其根据分子的确切形状或构造来描述分子。这些分子被认为是麝香或非麝香。因此,数据中有两个簇。Gesture 数据由手势的时间片段组成,用于预处理视频。这里所使用的数据集来自于原始文件,其中记录了用户 B 在讲述故事 1 时的手势。该数据集共有 1073 个实例,将被划分为 5 个簇,其对应于 5 种手势阶段。Landsat 数据包含卫星图像中 3*3 邻域中像素的多光谱值。该数据具有 36 个属性,4435 个实例,并且将被聚类为 6 个簇,对应于 6 种
【参考文献】:
期刊论文
[1]基于概率分布的多峰演化算法[J]. 陈伟能,杨强. 计算机研究与发展. 2017(06)
[2]一种MapReduce架构下基于遗传算法的K-Medoids聚类[J]. 赖向阳,宫秀军,韩来明. 计算机科学. 2017(03)
[3]类进化算法驱动的动态电力经济调度优化[J]. 陈皓,潘晓英. 电子学报. 2017(01)
[4]直觉模糊小生境的自适应遗传算法求解旅行商问题[J]. 梅海涛,王毅,华继学. 计算机科学. 2016(12)
[5]基于两阶段搜索算法的多峰函数优化[J]. 李焕哲,吴志健,郭肇禄,刘会超,汪慎文. 电子学报. 2016(06)
[6]基于混合遗传模拟退火算法的SaaS构件优化放置[J]. 孟凡超,初佃辉,李克秋,周学权. 软件学报. 2016(04)
[7]求解随机时变背包问题的精确算法与进化算法[J]. 贺毅朝,王熙照,李文斌,赵书良. 软件学报. 2017(02)
[8]教育数据挖掘研究进展综述[J]. 周庆,牟超,杨丹. 软件学报. 2015(11)
[9]基于内部罚函数的进化算法求解约束优化问题[J]. 崔承刚,杨晓飞. 软件学报. 2015(07)
[10]一种新的并行自动聚类算法:CGC-Cluster[J]. 杜欣,刘大刚,倪友聪,张开活,谢大同. 小型微型计算机系统. 2015(06)
本文编号:2980608
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2980608.html
最近更新
教材专著