密度峰值聚类算法研究及其在电力大数据异常值检测上的应用
发布时间:2022-02-14 11:23
密度峰值聚类算法是一种基于密度的聚类算法,其密度峰值依靠密度-距离的模式进行确定,可以处理任意形状的类簇,是一种简单又高效的聚类算法。然而该算法仍然存在几点缺陷:(1)截断距离需要人工选取,缺乏一定理论依据。(2)局部密度定义的方式有一定局限性,导致当数据集中存在不同类簇间样本疏密程度差异较大时,聚类效果差。(3)密度峰值聚类算法难以处理具有流形特征的数据集,而这种特征在真实数据集中十分常见。本文针对上述问题展开了研究,并提出了对应的改进方案:(1)针对密度峰值聚类算法处理数据时需要人为输入截断距离,对于不同数据集其参数也需要大量的先验实验来确定的缺点,提出了萤火虫优化的密度峰值聚类算法。算法利用密度估计熵评估数据间的确定性关系,用萤火虫算法迭代寻优找到熵最小时的截断距离,将其带入标准的密度峰值聚类算法中进行聚类。从而避免了人为设置参数的无依据性,根据不同数据集自适应的选择参数。(2)针对密度峰值聚类算法局部密度定义存在的缺陷,提出了基于余弦核的密度峰值聚类算法。余弦核函数利用数据集的局部信息定义样本的局部密度,可以发现截断距离内不同样本的位置差异,同时平衡了类簇中心点和边界点对样本局...
【文章来源】:南昌工程学院江西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
DPC算法聚类示例
决策图示例
密度峰值聚类算法研究及其在电力大数据异常值检测上的应用16两种算法均运行10次后,选取聚类效果最好的一次。利用RI和NMI作为聚类质量的评价标准。表3.2展示了两种算法在合成数据集上的有效性指标比较。从表3.2可以看出,FADPC算法的聚类准确性比DPC算法更加明显、突出。在8个合成数据集中,Flame和Spiral数据集数据量较少,形状分布简单,两种算法均得到了最好的聚类结果,其RI和NMI的值都得到了1。另外6个合成数据集上,FADPC算法的RI指标均要优于DPC算法,NMI指标也有5个优于DPC算法。在Jain数据集上,FADPC算法的效果最为显著,其RI指标达到0.8122,NMI指标为0.5784,而DPC算法的RI和NMI只有0.5179和0.0967。在R15和D31两个数据集上,DPC也能达到不错的聚类效果,但FADPC聚类效果得到进一步的提升。RI指标由DPC的0.9889和0.9333提升到0.9991和0.9880,NMI指标也由0.9695和0.8202提升到了0.9942和0.9354。仅在Compound上FADPC的NMI指标为0.7971低于DPC算法的0.8136,但两者相差不大。为进一步验证实验结果的准确性,图3.1-图3.8给出了两种算法在8种合成数据集上的聚类效果对比图。对于聚类所得不同类簇采用不同的颜色进行展示。表3.2合成数据集上算法有效性指标比较Table3.2ComparisonofAlgorithmValidityIndexesonSyntheticdataset数据集RINMIDPCFADPCDPCFADPCFlame1111Jain0.51790.81220.09670.5784Aggregation0.89220.94700.83540.9166Pathbased0.69200.75090.42010.5530Spiral1111Compound0.85890.90930.81360.7971R150.98890.99910.96950.9942D310.93330.98800.82020.9354(a)DPC(b)FADPC图3.1两种算法在Flame上的聚类结果Figure3.1ClusteringresultsoftwoalgorithmsonFlame
【参考文献】:
期刊论文
[1]萤火虫算法研究综述[J]. 王晖,王文君,肖松毅. 南昌工程学院学报. 2019(04)
[2]基于K近邻和多类合并的密度峰值聚类算法[J]. 薛小娜,高淑萍,彭弘铭,吴会会. 吉林大学学报(理学版). 2019(01)
[3]一种基于K近邻的比较密度峰值聚类算法[J]. 杜沛,程晓荣. 计算机工程与应用. 2019(10)
[4]正弦选择概率模型的全局最优引导人工蜂群算法[J]. 孙辉,谢海华,赵嘉. 南昌工程学院学报. 2018(06)
[5]深度学习萤火虫算法[J]. 赵嘉,谢智峰,吕莉,王晖,孙辉,喻祥. 电子学报. 2018(11)
[6]改进萤火虫优化的软子空间聚类算法[J]. 张曦,赵嘉,李沛武,王家园,谢智峰. 南昌工程学院学报. 2018(04)
[7]基于IQPSO优化SVM在径流预报中的应用[J]. 李文敬,李沛武. 南昌工程学院学报. 2018(03)
[8]基于非参数核密度估计的密度峰值聚类算法[J]. 谢国伟,钱雪忠,周世兵. 计算机应用研究. 2018(10)
[9]一种基于网格的密度峰值聚类算法[J]. 王飞,王国胤,李智星,彭思源. 小型微型计算机系统. 2017(05)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
博士论文
[1]基于深层神经网络的语音识别声学建模研究[D]. 周盼.中国科学技术大学 2014
[2]基于聚类分析的网络用户兴趣挖掘方法研究[D]. 马力.西安电子科技大学 2012
硕士论文
[1]聚类融合与深度学习在用电负荷模式识别的应用研究[D]. 林锦波.华南理工大学 2014
本文编号:3624460
【文章来源】:南昌工程学院江西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
DPC算法聚类示例
决策图示例
密度峰值聚类算法研究及其在电力大数据异常值检测上的应用16两种算法均运行10次后,选取聚类效果最好的一次。利用RI和NMI作为聚类质量的评价标准。表3.2展示了两种算法在合成数据集上的有效性指标比较。从表3.2可以看出,FADPC算法的聚类准确性比DPC算法更加明显、突出。在8个合成数据集中,Flame和Spiral数据集数据量较少,形状分布简单,两种算法均得到了最好的聚类结果,其RI和NMI的值都得到了1。另外6个合成数据集上,FADPC算法的RI指标均要优于DPC算法,NMI指标也有5个优于DPC算法。在Jain数据集上,FADPC算法的效果最为显著,其RI指标达到0.8122,NMI指标为0.5784,而DPC算法的RI和NMI只有0.5179和0.0967。在R15和D31两个数据集上,DPC也能达到不错的聚类效果,但FADPC聚类效果得到进一步的提升。RI指标由DPC的0.9889和0.9333提升到0.9991和0.9880,NMI指标也由0.9695和0.8202提升到了0.9942和0.9354。仅在Compound上FADPC的NMI指标为0.7971低于DPC算法的0.8136,但两者相差不大。为进一步验证实验结果的准确性,图3.1-图3.8给出了两种算法在8种合成数据集上的聚类效果对比图。对于聚类所得不同类簇采用不同的颜色进行展示。表3.2合成数据集上算法有效性指标比较Table3.2ComparisonofAlgorithmValidityIndexesonSyntheticdataset数据集RINMIDPCFADPCDPCFADPCFlame1111Jain0.51790.81220.09670.5784Aggregation0.89220.94700.83540.9166Pathbased0.69200.75090.42010.5530Spiral1111Compound0.85890.90930.81360.7971R150.98890.99910.96950.9942D310.93330.98800.82020.9354(a)DPC(b)FADPC图3.1两种算法在Flame上的聚类结果Figure3.1ClusteringresultsoftwoalgorithmsonFlame
【参考文献】:
期刊论文
[1]萤火虫算法研究综述[J]. 王晖,王文君,肖松毅. 南昌工程学院学报. 2019(04)
[2]基于K近邻和多类合并的密度峰值聚类算法[J]. 薛小娜,高淑萍,彭弘铭,吴会会. 吉林大学学报(理学版). 2019(01)
[3]一种基于K近邻的比较密度峰值聚类算法[J]. 杜沛,程晓荣. 计算机工程与应用. 2019(10)
[4]正弦选择概率模型的全局最优引导人工蜂群算法[J]. 孙辉,谢海华,赵嘉. 南昌工程学院学报. 2018(06)
[5]深度学习萤火虫算法[J]. 赵嘉,谢智峰,吕莉,王晖,孙辉,喻祥. 电子学报. 2018(11)
[6]改进萤火虫优化的软子空间聚类算法[J]. 张曦,赵嘉,李沛武,王家园,谢智峰. 南昌工程学院学报. 2018(04)
[7]基于IQPSO优化SVM在径流预报中的应用[J]. 李文敬,李沛武. 南昌工程学院学报. 2018(03)
[8]基于非参数核密度估计的密度峰值聚类算法[J]. 谢国伟,钱雪忠,周世兵. 计算机应用研究. 2018(10)
[9]一种基于网格的密度峰值聚类算法[J]. 王飞,王国胤,李智星,彭思源. 小型微型计算机系统. 2017(05)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
博士论文
[1]基于深层神经网络的语音识别声学建模研究[D]. 周盼.中国科学技术大学 2014
[2]基于聚类分析的网络用户兴趣挖掘方法研究[D]. 马力.西安电子科技大学 2012
硕士论文
[1]聚类融合与深度学习在用电负荷模式识别的应用研究[D]. 林锦波.华南理工大学 2014
本文编号:3624460
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3624460.html