基于群智能优化算法的聚类问题研究及应用
发布时间:2021-01-09 05:39
随着大数据时代的到来,互联网平台上每天产生的信息量是过去几十年甚至上百年的信息量的总和。如何将海量数据进行科学地获取、存储、查询、共享、分析及可视化,这已成为目前研究者重要的研究课题。数据挖掘是处理海量数据并提取有价值的关键信息的技术,聚类分析是其技术中一个极其重要的研究的部分。群智能算法作为新兴的启发式优化算法,能够很好地处理一些复杂优化问题,因此,将群智能算法和聚类问题融合已成为一个前沿研究课题。本文详细介绍了传统聚类算法和群智能算法的相关理论,与传统算法进行分析对比并找出不同算法的参数、使用度量、目标函数、关键步骤、循环条件等算法特性并对其相应的缺陷进行总结,提出了聚类综合算法。对教与学优化算法进行了分析与研究,提出了融合小生境和非递减策略的教与学优化算法,最后将改进后的教与学优化算法用于密度峰聚类算法中以解决聚类算法参数敏感问题。首先,提出聚类综合算法。直接对未被训练的数据样本进行建模,使整个数据集划分成由相似对象组成的带有类别标签的多个类别。其次,利用监督学习分类思想对少量的已有标签数据的几个类进一步的分类,训练成一个分类器,然后利用剩余的未标记样本来提高这个分类器的精度,进...
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
算法在不同K值的时间对比
哈尔滨理工大学工学硕士学位论文-26-3-7所示:图3-7算法在不同K值的SSE值对比Fig.3-7ComparisonofSSEvaluesofalgorithmatdifferentKvalues在图3-7中每组左边柱形代表10000样本下SSE值,每组右边柱形代表5000样本下SSE值,实验结果很清晰地表明算法在相同K值不同数据样本量时,数据样本量大比数据样本量小的SSE值大。根据SSE定义,SSE值越大聚类效果越不好,SSE值越小聚类效果越好。这种情况下单纯使用K均值算法在3D_spatial_network数据集下产生的聚类效果并不好。根据选取不同的K(2-10)值记录算法在无监督算法处理过的数据集运行时间和正确率。结果如表3-6所示:表3-6算法运行时间和正确率Table3-6Run-timeandaccuracyofalgorithm.KTime(s)Accuracy21.74120.962831.68370.961141.67570.952251.61960.941661.62680.932871.68240.932881.69490.930791.67260.9302101.66640.9302在基于划分算法处理过的子数据集下的不同K值的运行时间趋势,如图3-8
哈尔滨理工大学工学硕士学位论文-27-所示:图3-8算法在不同K值下运行时间趋势Fig.3-8AlgorithmrunningtimetrendunderdifferentKvalues从图3-8中我们可以看出当K=5时算法运行时间最短,说明K=5时算法时间效率最高,K值为2时运行时间最长。在基于划分算法处理过的子数据集下的不同K值的分类正确率,如图3-9所示:图3-9算法在不同的K值情况下分类正确率Fig.3-9ClassificationaccuracyofthealgorithmunderdifferentK-values从图3-9中我们可以看出随着K值增大KNN算法的正确率降低,最低值大于0.9,在当K值大于等于6时斜率比较平滑,为了找到最为合适的K值,我们在不同K值情况下将每个K值对应的正确率相加求平均值,平均值约为0.94159795,这个值与当K值等于5时更相近。当K=5时算法正确率为0.9416,错误率为0.0584。根据DBSCAN算法在基于分类算法处理过的数据集下的相同Eps不同
本文编号:2966073
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
算法在不同K值的时间对比
哈尔滨理工大学工学硕士学位论文-26-3-7所示:图3-7算法在不同K值的SSE值对比Fig.3-7ComparisonofSSEvaluesofalgorithmatdifferentKvalues在图3-7中每组左边柱形代表10000样本下SSE值,每组右边柱形代表5000样本下SSE值,实验结果很清晰地表明算法在相同K值不同数据样本量时,数据样本量大比数据样本量小的SSE值大。根据SSE定义,SSE值越大聚类效果越不好,SSE值越小聚类效果越好。这种情况下单纯使用K均值算法在3D_spatial_network数据集下产生的聚类效果并不好。根据选取不同的K(2-10)值记录算法在无监督算法处理过的数据集运行时间和正确率。结果如表3-6所示:表3-6算法运行时间和正确率Table3-6Run-timeandaccuracyofalgorithm.KTime(s)Accuracy21.74120.962831.68370.961141.67570.952251.61960.941661.62680.932871.68240.932881.69490.930791.67260.9302101.66640.9302在基于划分算法处理过的子数据集下的不同K值的运行时间趋势,如图3-8
哈尔滨理工大学工学硕士学位论文-27-所示:图3-8算法在不同K值下运行时间趋势Fig.3-8AlgorithmrunningtimetrendunderdifferentKvalues从图3-8中我们可以看出当K=5时算法运行时间最短,说明K=5时算法时间效率最高,K值为2时运行时间最长。在基于划分算法处理过的子数据集下的不同K值的分类正确率,如图3-9所示:图3-9算法在不同的K值情况下分类正确率Fig.3-9ClassificationaccuracyofthealgorithmunderdifferentK-values从图3-9中我们可以看出随着K值增大KNN算法的正确率降低,最低值大于0.9,在当K值大于等于6时斜率比较平滑,为了找到最为合适的K值,我们在不同K值情况下将每个K值对应的正确率相加求平均值,平均值约为0.94159795,这个值与当K值等于5时更相近。当K=5时算法正确率为0.9416,错误率为0.0584。根据DBSCAN算法在基于分类算法处理过的数据集下的相同Eps不同
本文编号:2966073
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2966073.html
最近更新
教材专著