ISODATA模型及其Gap统计应用研究
发布时间:2021-12-11 09:47
Gap Statistics是在K-means基础上建立的,考虑到K-means算法容易受初始聚类中心以及簇的数目的影响,并且通过Gap Statistics方法估计聚类数能够得到数据集的粗略分类,不能进一步对数据集进行细分类。针对这一不足,本文将ISODATA算法引入到Gap Statistics中。首先,由于ISODATA算法需要估计初始聚类数目这一参数,本文验证了多维切比雪夫不等式与马氏距离之间的关系,并基于它们之间的关系提出了聚类初始数目的估计方法。而后提出了改进的ISODATA算法,即MISODATA算法,继而提出了MIGS模型。实证分析了MIGS模型的可行性与有效性,MIGS模型不仅可以实现数据集的细分类,而且通过MIGS模型估计数据集的最佳聚类数的准确率高于原GS模型。其次,改进后的MIGS模型虽说有很多优点,但是MISODATA算法中仍需要人工设定控制分裂和合并的参数,对于不同的数据集,这两个参数值的选取也不同,取值属于零至正无穷范围内,故两个参数值难以确定。针对这一不足,对MISODATA算法进行改进,引入了合并度和分裂度的概念,提出了基于变异系数的分裂度估计模型和基...
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
图3.1:?Iris数据集的Gap和MIGap关于聚类数的变化曲线.??
图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?,6[?/??18?■?/?\?■?'1?卜、/??a1.6.?/?\?.?,?/??备?\?I13-?/??\?-?、/??V^\?.?'?■??Nl?1?./?.??1?-?、:?J??〇8??1?1?1?1?1?1??68?1?1?1???1?1???.1?2345678?1?-?J?4?5?6?7?c?9??*4unl?r?of?Cius;ers??Nunber?of?Clusters??图3.3:?Haberman数据集的Gap和MIGap关于聚类数的变化曲线.??对Haberman数据集而言
?545678??Number?of?Clusters??图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?
【参考文献】:
期刊论文
[1]改进的自适应模糊ISODATA灰度图像分割算法[J]. 康永辉,戴激光,王广哲. 计算机工程与应用. 2016(17)
[2]基于ISODATA聚类的词汇树图像检索算法[J]. 张婷,戴芳,郭文艳. 计算机科学. 2014(S2)
[3]一种基于同步动力学模型的层次聚类方法[J]. 黄健斌,康剑梅,齐俊杰,孙鹤立. 中国科学:信息科学. 2013(05)
[4]基于改进的ISODATA算法的大样本数据聚类方法研究[J]. 张丽娜,姜新华,那日苏. 内蒙古农业大学学报(自然科学版). 2013(01)
[5]K-means和ISODATA聚类算法的比较研究[J]. 陈平生. 江西理工大学学报. 2012(01)
[6]基于直觉模糊的ISODATA算法[J]. 李前进,王寅龙,李志祥,王希武,林克成. 计算机工程与应用. 2012(09)
[7]Application of Two-Order Difference to Gap Statistic[J]. 岳士弘,王秀秀,魏苗苗. Transactions of Tianjin University. 2008(03)
[8]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[9]变异系数——一个衡量离散程度简单而有用的统计指标[J]. 王文森. 中国统计. 2007(06)
[10]图像边缘检测的多尺度灰度Gap统计模型[J]. 黄陈蓉,张正军,吴慧中. 中国图象图形学报. 2005(08)
硕士论文
[1]改进的近邻传播聚类算法及其应用研究[D]. 唐丹.南京理工大学 2017
[2]基于加权MP马氏距离的GS方法研究[D]. 王振丽.南京理工大学 2016
[3]基于GS方法的图像分割估计数的多信息动态研究[D]. 刘倩.南京理工大学 2013
[4]K-Means聚类算法的研究与改进[D]. 崔丹丹.安徽大学 2012
[5]基于MFGS方法图像最佳分割数的研究[D]. 童波.南京理工大学 2011
[6]基于GS方法的图像最佳分割的研究[D]. 李娜.南京理工大学 2006
本文编号:3534457
【文章来源】:南京理工大学江苏省 211工程院校
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
图3.1:?Iris数据集的Gap和MIGap关于聚类数的变化曲线.??
图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?,6[?/??18?■?/?\?■?'1?卜、/??a1.6.?/?\?.?,?/??备?\?I13-?/??\?-?、/??V^\?.?'?■??Nl?1?./?.??1?-?、:?J??〇8??1?1?1?1?1?1??68?1?1?1???1?1???.1?2345678?1?-?J?4?5?6?7?c?9??*4unl?r?of?Cius;ers??Nunber?of?Clusters??图3.3:?Haberman数据集的Gap和MIGap关于聚类数的变化曲线.??对Haberman数据集而言
?545678??Number?of?Clusters??图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?
【参考文献】:
期刊论文
[1]改进的自适应模糊ISODATA灰度图像分割算法[J]. 康永辉,戴激光,王广哲. 计算机工程与应用. 2016(17)
[2]基于ISODATA聚类的词汇树图像检索算法[J]. 张婷,戴芳,郭文艳. 计算机科学. 2014(S2)
[3]一种基于同步动力学模型的层次聚类方法[J]. 黄健斌,康剑梅,齐俊杰,孙鹤立. 中国科学:信息科学. 2013(05)
[4]基于改进的ISODATA算法的大样本数据聚类方法研究[J]. 张丽娜,姜新华,那日苏. 内蒙古农业大学学报(自然科学版). 2013(01)
[5]K-means和ISODATA聚类算法的比较研究[J]. 陈平生. 江西理工大学学报. 2012(01)
[6]基于直觉模糊的ISODATA算法[J]. 李前进,王寅龙,李志祥,王希武,林克成. 计算机工程与应用. 2012(09)
[7]Application of Two-Order Difference to Gap Statistic[J]. 岳士弘,王秀秀,魏苗苗. Transactions of Tianjin University. 2008(03)
[8]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[9]变异系数——一个衡量离散程度简单而有用的统计指标[J]. 王文森. 中国统计. 2007(06)
[10]图像边缘检测的多尺度灰度Gap统计模型[J]. 黄陈蓉,张正军,吴慧中. 中国图象图形学报. 2005(08)
硕士论文
[1]改进的近邻传播聚类算法及其应用研究[D]. 唐丹.南京理工大学 2017
[2]基于加权MP马氏距离的GS方法研究[D]. 王振丽.南京理工大学 2016
[3]基于GS方法的图像分割估计数的多信息动态研究[D]. 刘倩.南京理工大学 2013
[4]K-Means聚类算法的研究与改进[D]. 崔丹丹.安徽大学 2012
[5]基于MFGS方法图像最佳分割数的研究[D]. 童波.南京理工大学 2011
[6]基于GS方法的图像最佳分割的研究[D]. 李娜.南京理工大学 2006
本文编号:3534457
本文链接:https://www.wllwen.com/kejilunwen/yysx/3534457.html