当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于势能场模型的层次优化聚类算法研究

发布时间:2020-12-13 22:48
  随着信息技术的飞速发展,信息量呈爆炸式增长从而产生了海量数据,为了从中提取有价值的信息,数据挖掘技术应运而生,而聚类分析技术又是数据挖掘领域中的一项重要任务,在各行各业均有广泛的应用。尽管聚类分析技术近些年已经得到了长足的发展,如何综合利用各种聚类思想的长处,提出更加优秀的聚类算法依然是一大研究热点。密度峰搜索聚类算法是2014年在Science杂志上提出的一种融合密度与划分思想的新型聚类算法,其思路新颖并且具有良好的聚类能力。经过深入研究和分析,本文借鉴了该算法的优点,并对其存在的不足之处进行改进,提出了一种基于势能场模型的层次优化聚类算法。传统密度模型对邻域半径敏感,在计算过程中仅考虑局部数据对象,往往效果一般。改进算法在首阶段引入了势能场模型,利用数据集的整体分布信息实现对数据对象的精确描述,而构造基于势能的边缘加权树可以对原始分配策略进行良好的优化。此外,在决策值的计算上,算法也充分考虑了数据集的分布特征,利用离散程度自动确定参数的权重,并在此基础上结合正态分布的思想,以积极的策略将决策值大于置信区间上限的数据点全部选取为潜在聚类中心,进而获得多个初始聚类子簇。密度峰搜索聚类算... 

【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于势能场模型的层次优化聚类算法研究


基于欧式距离的简单聚类实例

决策图,数据点


据点 的局部密度定义如下:= (2-1)其中,当 < 0时,χ = 1,否则χ = 0, 是由用户指定的截断距离,显然 的值等于距数据点 的距离小于 的样本点个数。从公式中可以看出,尽管 CDP 算法核心关注点在于聚类中心,然而局部密度值的计算也同样依赖于传统的密度模型。数据点 到具有更高局部密度数据点的最小距离定义为该数据点的高密度距离:=:(2-2)对于具有最高密度的数据点,高密度距离的计算如下:= max(2-3)

实例图,实例,势能场,数据点


图 2-4 边缘加权树的构造实例(a)图展示了二维空间坐标系中六个数据点的分布情况,每个数据点的势能已经计算并标注在数据点的标签上,数据点及其父结点通过线段连接并标注了距离。(b)图展示了基于(a)图中数据分布所构造的边缘加权树,箭头用于指向和表明该数据点的孩子结点。2.3 基于势能场模型的密度峰搜索聚类算法通过对 CDP 算法的详细分析可以发现,看似优雅的 CDP 算法尽管特点鲜明,极具创新性,但是在面对一些特殊情况时,其表现并不能令人满意,因此如何在保留该算法优点的同时,改进其不足之处值得深入研究。受到层次聚类思想的启发,本文提出了一种包含两个聚类阶段的改进方法,即基于势能场模型的层次优化聚类算法。首阶段在类比 CDP 算法聚类过程的基础上引入势能场模型,并构造边缘加权树,通过在势能场中积极选取潜在聚类中

【参考文献】:
期刊论文
[1]一种基于密度的分布式聚类方法[J]. 王岩,彭涛,韩佳育,刘露.  软件学报. 2017(11)
[2]一种改进的多视图聚类集成算法[J]. 邓强,杨燕,王浩.  计算机科学. 2017(01)
[3]一种基于扩展区域查询的密度聚类算法[J]. 杨杰明,吴启龙,曲朝阳,张慧莉,蔺洪文,吕正卓.  计算机应用研究. 2017(10)
[4]引入信息熵的CURE聚类算法[J]. 伍恒,李文杰,蒋旻.  计算机应用研究. 2017(08)
[5]基于层次与密度的任意形状聚类算法[J]. 许合利,牛丽君.  计算机工程. 2016(07)
[6]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.  Chinese Journal of Electronics. 2016(03)
[7]自动确定聚类中心的密度峰聚类[J]. 李涛,葛洪伟,苏树智.  计算机科学与探索. 2016(11)
[8]基于动态近邻的DBSCAN算法[J]. 李阳,马骊,樊锁海.  计算机工程与应用. 2016(20)
[9]聚类方法综述[J]. 金建国.  计算机科学. 2014(S2)
[10]基于密度的改进BIRCH聚类算法[J]. 韦相.  计算机工程与应用. 2013(10)

硕士论文
[1]基于正态分布的密度峰聚类算法的研究[D]. 郑倞.浙江工业大学 2016
[2]基于密度的改进型层次聚类算法研究[D]. 李彩云.兰州大学 2016
[3]基于密度的层次聚类算法研究[D]. 张文开.中国科学技术大学 2015
[4]铁路货运大数据平台下基于聚类的客户细分应用研究[D]. 刘明桦.北京交通大学 2015
[5]一种新的基于密度的聚类算法研究[D]. 廖礼.兰州大学 2013



本文编号:2915312

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2915312.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8248***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com