当前位置:主页 > 科技论文 > 数学论文 >

ISODATA模型及其Gap统计应用研究

发布时间:2021-12-11 09:47
  Gap Statistics是在K-means基础上建立的,考虑到K-means算法容易受初始聚类中心以及簇的数目的影响,并且通过Gap Statistics方法估计聚类数能够得到数据集的粗略分类,不能进一步对数据集进行细分类。针对这一不足,本文将ISODATA算法引入到Gap Statistics中。首先,由于ISODATA算法需要估计初始聚类数目这一参数,本文验证了多维切比雪夫不等式与马氏距离之间的关系,并基于它们之间的关系提出了聚类初始数目的估计方法。而后提出了改进的ISODATA算法,即MISODATA算法,继而提出了MIGS模型。实证分析了MIGS模型的可行性与有效性,MIGS模型不仅可以实现数据集的细分类,而且通过MIGS模型估计数据集的最佳聚类数的准确率高于原GS模型。其次,改进后的MIGS模型虽说有很多优点,但是MISODATA算法中仍需要人工设定控制分裂和合并的参数,对于不同的数据集,这两个参数值的选取也不同,取值属于零至正无穷范围内,故两个参数值难以确定。针对这一不足,对MISODATA算法进行改进,引入了合并度和分裂度的概念,提出了基于变异系数的分裂度估计模型和基... 

【文章来源】:南京理工大学江苏省 211工程院校

【文章页数】:47 页

【学位级别】:硕士

【部分图文】:

ISODATA模型及其Gap统计应用研究


图3.1:?Iris数据集的Gap和MIGap关于聚类数的变化曲线.??

曲线,聚类数,数据集,曲线


图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?,6[?/??18?■?/?\?■?'1?卜、/??a1.6.?/?\?.?,?/??备?\?I13-?/??\?-?、/??V^\?.?'?■??Nl?1?./?.??1?-?、:?J??〇8??1?1?1?1?1?1??68?1?1?1???1?1???.1?2345678?1?-?J?4?5?6?7?c?9??*4unl?r?of?Cius;ers??Nunber?of?Clusters??图3.3:?Haberman数据集的Gap和MIGap关于聚类数的变化曲线.??对Haberman数据集而言

曲线,聚类数,数据集,曲线


?545678??Number?of?Clusters??图3.2:?Glass数据集的Gap和MIGap关于聚类数的变化曲线.??对Glass数据集而言,ISODATA算法选取的参数值为:知=5也=2.5办=??0.2,L?=?2,了?=?100。由图3.2可知,通过MIGS方法得至IJ的最佳聚类数的估计值为7,??而GS方法得到的最佳聚类数的估计数为2,这是因为IS0DATA算法中引入的自动地??分裂和合并的机制,对于类别较多的数据集来说,可以通过MIGS方法实现对数据集??的细分类。??(3)?Haberman数据集??Haberman数据集有306个样本,其中每个样本有3个属性。数据集被分为2类,??包括进行手术后存活5年或者更久的226个样本,以及患者在5年内死亡的80个样本。??'?7\ ̄'?I—-tSs'piS?nl?,J?'?'?^??卜?\?卜靜1?/\/?1??\?

【参考文献】:
期刊论文
[1]改进的自适应模糊ISODATA灰度图像分割算法[J]. 康永辉,戴激光,王广哲.  计算机工程与应用. 2016(17)
[2]基于ISODATA聚类的词汇树图像检索算法[J]. 张婷,戴芳,郭文艳.  计算机科学. 2014(S2)
[3]一种基于同步动力学模型的层次聚类方法[J]. 黄健斌,康剑梅,齐俊杰,孙鹤立.  中国科学:信息科学. 2013(05)
[4]基于改进的ISODATA算法的大样本数据聚类方法研究[J]. 张丽娜,姜新华,那日苏.  内蒙古农业大学学报(自然科学版). 2013(01)
[5]K-means和ISODATA聚类算法的比较研究[J]. 陈平生.  江西理工大学学报. 2012(01)
[6]基于直觉模糊的ISODATA算法[J]. 李前进,王寅龙,李志祥,王希武,林克成.  计算机工程与应用. 2012(09)
[7]Application of Two-Order Difference to Gap Statistic[J]. 岳士弘,王秀秀,魏苗苗.  Transactions of Tianjin University. 2008(03)
[8]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇.  软件学报. 2008(01)
[9]变异系数——一个衡量离散程度简单而有用的统计指标[J]. 王文森.  中国统计. 2007(06)
[10]图像边缘检测的多尺度灰度Gap统计模型[J]. 黄陈蓉,张正军,吴慧中.  中国图象图形学报. 2005(08)

硕士论文
[1]改进的近邻传播聚类算法及其应用研究[D]. 唐丹.南京理工大学 2017
[2]基于加权MP马氏距离的GS方法研究[D]. 王振丽.南京理工大学 2016
[3]基于GS方法的图像分割估计数的多信息动态研究[D]. 刘倩.南京理工大学 2013
[4]K-Means聚类算法的研究与改进[D]. 崔丹丹.安徽大学 2012
[5]基于MFGS方法图像最佳分割数的研究[D]. 童波.南京理工大学 2011
[6]基于GS方法的图像最佳分割的研究[D]. 李娜.南京理工大学 2006



本文编号:3534457

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/3534457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户28243***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com