最优密度聚类与双统计量有效性分析
发布时间:2021-03-10 22:44
聚类分析是机器学习中的重要研究方向之一,相对于监督学习和半监督学习,聚类能够根据数据集本身的结构特性将样本归类,并能够发掘数据集样本间隐含的信息,在数字化和信息化的当今具有重要的研究价值和广阔的应用范围。聚类分析相关研究主要包括数据预处理、聚类算法和聚类有效性指标等方面。聚类分析研究发展至今,已有许多学者针对各个研究方向和不同应用场合提出了各种算法,不同算法具有各自的优势,同时也存在各自尚待解决的问题。在数据约减算法方面,目前常用的样例约减算法无法较好地反映数据集的结构特性,或者存在依赖使用者经验的参数;聚类算法方面,现有的许多算法通常也存在需要人为确定的参数,无法实现完全非监督的聚类过程;聚类有效性指标方面,目前被提出的指标大都针对特定的聚类算法,对算法的普适性不强,并对应用数据集对象有所限制。本文在对现有算法进行研究分析的基础上,对以上三个方面各提出了新的或改进的算法,主要研究成果如下:首先,针对目前的数据约减算法不能较好地反映数据集本身结构特性的问题,提出基于二分密度的约减算法,该算法能够在没有参数的条件下,实现对数据集的样例约减,达到去除噪声、减少样本量的同时,保留数据集本身结...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
约减测试
第3章基于二分密度的数据约减算法31Dataset2由螺旋状样本点组成,每个类具有相同的样本数,但是各个类之间的密度差异较大,类内部密度差异也较大,共1980个样本点;Dataset3也是由三个中间密度高边缘密度低的团状类组成,但是这三个团状类相互之间有所交叠,共300个样本点。(a)Dataset1(b)Dataset2(c)Dataset3图3-4约减测试人工数据集在不同的约减率下,基于二分密度的数据约减算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度约减算法(简称GR算法)对三个测试数据集的约减效果分别如表3-2、表3-3和表3-4所示,图中蓝色的样本点表示被约减的样本,红色样本点表示约减后保留的样本。表3-2Dataset1数据集约减结果对比约减算法约减率RSGRBBR10%20%
第4章最佳半径的密度峰值聚类算法53表4-612个UCI数据集(续)数据集总样本数维度类数每类样本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2这三组数据集的特点分别为:第一组所包含的前四个数据集每个类具有相同的样本数,但是维度差异很大;第二组所包含的中间四个数据集是当前关于新型聚类算法验证时常常被用到的四个数据集;第三组所包含的后四个数据集的各个类之间存在较大的密度差异,这对DBSCAN算法是个困难的问题。因此,这12个测试数据集是有代表性的,它们的特性可能会在大多数实际实验对象中被遇到。图4-2展示了这12个数据集的密度分辨率曲线,根据密度分辨率得到每个数据集的最佳密度半径值r*如表4-7所示:图4-212个UCI数据集密度分辨率曲线
本文编号:3075406
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
约减测试
第3章基于二分密度的数据约减算法31Dataset2由螺旋状样本点组成,每个类具有相同的样本数,但是各个类之间的密度差异较大,类内部密度差异也较大,共1980个样本点;Dataset3也是由三个中间密度高边缘密度低的团状类组成,但是这三个团状类相互之间有所交叠,共300个样本点。(a)Dataset1(b)Dataset2(c)Dataset3图3-4约减测试人工数据集在不同的约减率下,基于二分密度的数据约减算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度约减算法(简称GR算法)对三个测试数据集的约减效果分别如表3-2、表3-3和表3-4所示,图中蓝色的样本点表示被约减的样本,红色样本点表示约减后保留的样本。表3-2Dataset1数据集约减结果对比约减算法约减率RSGRBBR10%20%
第4章最佳半径的密度峰值聚类算法53表4-612个UCI数据集(续)数据集总样本数维度类数每类样本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2这三组数据集的特点分别为:第一组所包含的前四个数据集每个类具有相同的样本数,但是维度差异很大;第二组所包含的中间四个数据集是当前关于新型聚类算法验证时常常被用到的四个数据集;第三组所包含的后四个数据集的各个类之间存在较大的密度差异,这对DBSCAN算法是个困难的问题。因此,这12个测试数据集是有代表性的,它们的特性可能会在大多数实际实验对象中被遇到。图4-2展示了这12个数据集的密度分辨率曲线,根据密度分辨率得到每个数据集的最佳密度半径值r*如表4-7所示:图4-212个UCI数据集密度分辨率曲线
本文编号:3075406
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3075406.html