基于改进进化算法的高维数据聚类研究
发布时间:2022-01-25 03:44
目前已进入大数据时代,我们获取的数据变得越来越复杂,不仅面向的方面很多,数据的维度也越来越大。比如,各种类型的交易数据、基因表达数据、WEB使用数据等,它们的维度能够达到成百上千,甚至更大。聚类分析是数据挖掘一种有效手段,受维度灾难和数据稀疏性的影响,高维数据聚类给当前的聚类算法带来了巨大的挑战。一般来说,高维空间的簇结构往往存在于子空间而非整个空间,在现有研究的各类子空间聚类方法中,软子空间聚类是一个重要主题。针对现有的软子空间聚类算法都是对一个目标函数进行优化,在聚类过程中易陷入局部最优,依赖于初始聚类中心等问题,本文首先对多目标进化算法进行了改进,然后建立了高维数据聚类的多目标优化模型,以改进的进化算法为优化框架,提出了基于多目标进化算法的软子空间聚类算法,提高了聚类结果的稳定性和聚类效果,同时克服预先输入聚类个数的缺陷。论文的创新之处以及主要工作为:(1)提出了一种改进的进化算法GLEA。为了提高多目标进化算法的全局寻优能力和大规模决策变量对优化效果的影响,本文基于多目标进化算法LMEA框架,主要在两个方面进行了改进,第一,通过随机采样与非支配排序,优化了变量分解过程。第二,在...
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
维度灾难
-22-3.2.2多目标优化的多样性和收敛性分析在多目标优化问题中,算法的收敛性和多样性是判断优化是否有效的重要依据。这两个指标能够说明解集逼近Pareto前沿面的准确程度和解集在前沿面分布的均匀程度。现在常用的两个评价指标分别是IGD[43]和HV(Hypervolume)[44],这两个指标都可以同时度量解的多样性和收敛性。以下是对算法的多样性和收敛性的基本概述[45]。(1)收敛性多目标优化算法在运行时,不断的循环迭代寻找最优解,在解空间表现便是渐渐逼近真实的Pareto前沿面。在实际的应用中可知,许多多目标算法根本无法无限接近它的真实前沿面,顶多是获得一组靠近真实前沿面的最优解集。收敛性描述的是算法收敛到真实前沿面的程度,计算最优解集与真实前沿面之间的距离。(2)多样性多样性描述的是算法得到的最优解集在空间中的分布情况。它主要包含两个方面:最优解散布的广度以及最优集之间的分布的均匀程度。所以,提升算法的多样性有助于算法跳出局部最优解,避免算法早熟收敛。多样性也是非常重要的评价指标。如下图3.2,直观的表现了算法的收敛性、多样性的优劣情况,在上面的两张图中左边的比右边的收敛性好,在下面的两张图中左边比右边的多样性好。图3.2最优解集在空间中的分布
河北工业大学硕士学位论文-25-∈,0,1-,=1,2,3,4其中1、2、3、4为决策变量,将四个变量进行分组。对变量1,从种群中随机选择一个个体,对个体中的1随机采样5次,采样过程为在决策变量所在范围,随机生成一个值,个体中的其它变量值保持不变,这样就得到一个拥有5个新个体的种群,在目标空间中对应的位置如图3.4(a)中1所示,然后对5个个体进行非支配排序。2、3、4与1的处理过程相同,四个变量的非支配排序结果如图3.4(b)所示。从图中可以看出,变量1、2非支配等级覆盖范围从1到5,个体朝最优解的方向收敛,变量表现为收敛性相关,而变量3、4对应的非支配等级只有1,没有收敛性,表现为多样性相关。于是根据非支配等级覆盖范围将变量分为了两组。(a)个体在目标空间中的分布(b)非支配排序结果图3.4决策变量分组过程示意图非支配排序:首先找到种群中非支配解集,记为第一非支配层F1,将其所有个体赋予非支配序1=1,并从种群中除去,然后继续找出剩下种群中非支配解集,记为第二非支配层F2,其所有个体赋予非支配序2=2,循环执行,直到将整个种群分层,每个分层中的个体有相同的非支配序。设个体为=(1,,),D为决策变量的个数,决策变量分组算法流程如下:Step1:输入当前种群Pop,随机采样的次数nSample,初始化收敛性变量集合
【参考文献】:
期刊论文
[1]改进的SOFM神经网络在矿井水源判别中的应用[J]. 宋世杰,于师建,令春伟. 矿业研究与开发. 2017(12)
[2]一种求解多目标优化问题的进化算法混合框架[J]. 田红军,汪镭,吴启迪. 控制与决策. 2017(10)
[3]基于半监督的多目标进化模糊聚类算法[J]. 王俊,赵凤. 计算机工程与应用. 2017(22)
[4]基于多目标进化算法的MOEA/D权重向量产生方法[J]. 马庆. 计算机科学. 2016(S2)
[5]一种拟随机初始化模拟退火粒子群算法[J]. 王杰,李慧慧,彭金柱. 郑州大学学报(理学版). 2016(03)
[6]周期性变量分解的多目标进化算法研究[J]. 邱飞岳,莫雷平,王丽萍,江波. 小型微型计算机系统. 2016(06)
[7]基于大规模变量分解的多目标粒子群优化算法研究[J]. 邱飞岳,莫雷平,江波,王丽萍. 计算机学报. 2016(12)
[8]基于改进多目标萤火虫算法的模糊聚类[J]. 朱书伟,周治平,张道文. 计算机应用. 2015(03)
[9]聚类分析研究的挑战性问题[J]. 蒋盛益,王连喜. 广东工业大学学报. 2014(03)
[10]高维数据聚类方法综述[J]. 贺玲,蔡益朝,杨征. 计算机应用研究. 2010(01)
博士论文
[1]基于局部学习与均匀分解的多目标进化算法研究[D]. 马晓亮.西安电子科技大学 2014
硕士论文
[1]基于花朵授粉算法的软子空间聚类算法优化研究[D]. 戴娇.中国矿业大学 2017
[2]基于进化算法的高维数据聚类研究[D]. 杨代君.西安电子科技大学 2014
[3]基于分解的多目标进化聚类算法研究[D]. 魏莹.西安电子科技大学 2013
本文编号:3607839
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
维度灾难
-22-3.2.2多目标优化的多样性和收敛性分析在多目标优化问题中,算法的收敛性和多样性是判断优化是否有效的重要依据。这两个指标能够说明解集逼近Pareto前沿面的准确程度和解集在前沿面分布的均匀程度。现在常用的两个评价指标分别是IGD[43]和HV(Hypervolume)[44],这两个指标都可以同时度量解的多样性和收敛性。以下是对算法的多样性和收敛性的基本概述[45]。(1)收敛性多目标优化算法在运行时,不断的循环迭代寻找最优解,在解空间表现便是渐渐逼近真实的Pareto前沿面。在实际的应用中可知,许多多目标算法根本无法无限接近它的真实前沿面,顶多是获得一组靠近真实前沿面的最优解集。收敛性描述的是算法收敛到真实前沿面的程度,计算最优解集与真实前沿面之间的距离。(2)多样性多样性描述的是算法得到的最优解集在空间中的分布情况。它主要包含两个方面:最优解散布的广度以及最优集之间的分布的均匀程度。所以,提升算法的多样性有助于算法跳出局部最优解,避免算法早熟收敛。多样性也是非常重要的评价指标。如下图3.2,直观的表现了算法的收敛性、多样性的优劣情况,在上面的两张图中左边的比右边的收敛性好,在下面的两张图中左边比右边的多样性好。图3.2最优解集在空间中的分布
河北工业大学硕士学位论文-25-∈,0,1-,=1,2,3,4其中1、2、3、4为决策变量,将四个变量进行分组。对变量1,从种群中随机选择一个个体,对个体中的1随机采样5次,采样过程为在决策变量所在范围,随机生成一个值,个体中的其它变量值保持不变,这样就得到一个拥有5个新个体的种群,在目标空间中对应的位置如图3.4(a)中1所示,然后对5个个体进行非支配排序。2、3、4与1的处理过程相同,四个变量的非支配排序结果如图3.4(b)所示。从图中可以看出,变量1、2非支配等级覆盖范围从1到5,个体朝最优解的方向收敛,变量表现为收敛性相关,而变量3、4对应的非支配等级只有1,没有收敛性,表现为多样性相关。于是根据非支配等级覆盖范围将变量分为了两组。(a)个体在目标空间中的分布(b)非支配排序结果图3.4决策变量分组过程示意图非支配排序:首先找到种群中非支配解集,记为第一非支配层F1,将其所有个体赋予非支配序1=1,并从种群中除去,然后继续找出剩下种群中非支配解集,记为第二非支配层F2,其所有个体赋予非支配序2=2,循环执行,直到将整个种群分层,每个分层中的个体有相同的非支配序。设个体为=(1,,),D为决策变量的个数,决策变量分组算法流程如下:Step1:输入当前种群Pop,随机采样的次数nSample,初始化收敛性变量集合
【参考文献】:
期刊论文
[1]改进的SOFM神经网络在矿井水源判别中的应用[J]. 宋世杰,于师建,令春伟. 矿业研究与开发. 2017(12)
[2]一种求解多目标优化问题的进化算法混合框架[J]. 田红军,汪镭,吴启迪. 控制与决策. 2017(10)
[3]基于半监督的多目标进化模糊聚类算法[J]. 王俊,赵凤. 计算机工程与应用. 2017(22)
[4]基于多目标进化算法的MOEA/D权重向量产生方法[J]. 马庆. 计算机科学. 2016(S2)
[5]一种拟随机初始化模拟退火粒子群算法[J]. 王杰,李慧慧,彭金柱. 郑州大学学报(理学版). 2016(03)
[6]周期性变量分解的多目标进化算法研究[J]. 邱飞岳,莫雷平,王丽萍,江波. 小型微型计算机系统. 2016(06)
[7]基于大规模变量分解的多目标粒子群优化算法研究[J]. 邱飞岳,莫雷平,江波,王丽萍. 计算机学报. 2016(12)
[8]基于改进多目标萤火虫算法的模糊聚类[J]. 朱书伟,周治平,张道文. 计算机应用. 2015(03)
[9]聚类分析研究的挑战性问题[J]. 蒋盛益,王连喜. 广东工业大学学报. 2014(03)
[10]高维数据聚类方法综述[J]. 贺玲,蔡益朝,杨征. 计算机应用研究. 2010(01)
博士论文
[1]基于局部学习与均匀分解的多目标进化算法研究[D]. 马晓亮.西安电子科技大学 2014
硕士论文
[1]基于花朵授粉算法的软子空间聚类算法优化研究[D]. 戴娇.中国矿业大学 2017
[2]基于进化算法的高维数据聚类研究[D]. 杨代君.西安电子科技大学 2014
[3]基于分解的多目标进化聚类算法研究[D]. 魏莹.西安电子科技大学 2013
本文编号:3607839
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3607839.html