当前位置:主页 > 管理论文 > 客户关系论文 >

模型自动选择聚类算法的研究与应用

发布时间:2018-10-05 13:05
【摘要】:聚类是模式识别的一个重要工具,它在如生物信息学,网络数据分析,信息检索,客户关系管理,文本挖掘,以及科学数据探索等领域中有很多应用。聚类的目的是把一个有限的、未标记的数据集,根据预定义的相似性度量,划分成多个自然的子集(簇),从而使得来自同一簇内的数据对象都彼此接近,不同的簇中的数据对象彼此不同。 对聚类分析来说,其中一个最有挑战性也是最困难的问题是确定数据中包含的簇的真实数目。簇的数目在绝大部分已有的聚类算法中是一个输入参数。尽管对于一些应用来说,用户能够利用自己的专业知识预先确定簇的数目。不过对于绝大多数情况,簇的数目k是完全未知的,需要从数据本身估计出来。聚类的结果在很大程度上取决于对k的估计:如果把数据划分成太多簇的话会使结果变得复杂,并且难以进一步分析与阐释;相反,如果把数据划分的簇太少的话会丢失信息,从而误导后续的决策。模型选择是指,在给定数据的情况下,从一组候选模型中选择一个统计模型的过程。在聚类问题中,选择最优的k的过程就是模型选择。 本文在以下三个方面研究了具有自动模型选择能力的聚类算法以及它们的应用: (1)由于k-means算法理论简单、容易实现,因此在所有聚类算法中,k-means是应用最广泛的。然而这种算法存在两个严重的问题:需要人工指定聚类数与死单元问题。死单元问题是指如果某个初始的中心点离数据区域距离较远的话永远都没有学习的机会。为了解决这两个问题,经过多年研究,出现了竞争对手受惩罚学习算法(RivalPenalizationCompetitive Learning,,RPCL),这种方法能够在聚类过程中自动确定聚类数目。又因为自动确定聚类数目这个优点,可以给一个比真实聚类数大一点的初始聚类数目,从而忽略死单元造成的影响。然而这种算法仍然存在以下几个缺点:首先,一些研究显示,RPCL对惩罚率的选择比较敏感。如果惩罚率设置不好的话,有可能得到不正确的结果。第二,因为RPCL是一个在线学习算法,需要手工设定学习率。如果学习率太大,算法会很难收敛。相反如果学习率太小,算法就会收敛很慢。第三,实验显示,当给定的初始类别数k远远大于真实类别数k的时候,RPCL会比较容易收敛到不正确的类别数。本文在以下三方面改进了RPCL算法。首先,引入了狄利克雷过程先验(Dirichlet Process)到独立判断条件中,利用这个先验,本文的聚类算法聚合性更好。第二,引入了一种自动确定学习率的方法,这种学习率的确定方法被证明是符合牛顿下降法的。第三,根据新的独立判断条件,提出了一种自动确定惩罚率的方法。 (2)图像分割是计算机视觉中一种常用的预处理过程,它把图像中的像素根据空间上的接近程度和特征的相似性分割成多个紧凑的图像块。由于图像分割与聚类的内在一致性,基于聚类的方法是常用的无监督图像分割算法。贝叶斯阴阳和谐学习(BayesianYing-Yang harmony learning,BYY)把现实世界X及其表示Y在贝叶斯框架下用阴和阳两种方式来表示。并提出,尽管这两种表示方式理论上应当是相等的,但是实际上由于受到各方面的限制并不相等。因此他提出贝叶斯阴阳和谐学习理论,学习的目标是使阴阳两个系统和谐一致。为了进一步挖掘基于BYY的图像分割算法的潜能,本文提出了一种新的基于BYY的自然图像分割算法。本文基于BYY理论以及Dirichlet-Normal-Wishart先验分布提出了一种新的聚类算法。采用批量更新参数的策略,并且在更新过程中消除了几处复杂项的计算,从而大大加速了聚类过程。在聚类过程中,本算法继承了基于BYY算法的强大的模型自动选择能力。更进一步,开发了一套适用于基于聚类的图像分割算法的后处理过程。与其它基于聚类的图像分割方法相比,本算法一个重要的改进是把超像素作为整体来赋标签而不是每个像素单独赋标签。在BSDS500数据库上做了大量与其它方法以及专家手工分割比较的实验。结果显示,本文算法分割结果和专家分割结果很接近,性能与目前主流算法相比具有优越性。 (3)人脸信息处理是计算机视觉中最重要的研究领域之一。由于摄像头以及视频监控系统的广泛应用,人脸数据每时每刻都在急剧增长,刺激了对人脸信息进行自动化处理的需求。经过多年研究,人脸信息处理已经取得了令人瞩目的长足的发展。尽管如此,却存在一个看上去很简单的问题至今没有回答:给定一个人脸数据集,其中到底包含多少个体的人脸数据?要解决以上问题,主要存在下面3个主要的困难。首先,如何从人脸图像中鲁棒的提取人脸特征。其次,如何选择一个紧凑的可区分不同个体的人脸特征子集。第三,如何设计一个聚类算法能够自动确定聚类数目。本文提出了一种用于人脸聚类分析的计算框架,能够在不知道具体人数的情况下给人脸聚类,其中用到的区别性特征由算法自动选择。提取了表观特征与形状特征一起来表示人脸。首先手工标记一小部分人脸图像,主要用来训练主动表观模型,并且确定哪些特征对区分不同个体有明显效果。接着,训练好的主动表观模型用来拟合所有的人脸,每一个人脸都会由一个特征向量来描述。最终,贝叶斯非参数模型被用来对人脸进行聚类。本文用大量的实验来评估此计算模型,实验结果显示了它的可行性与有效性。
[Abstract]:......
【学位授予单位】:宁波大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP391.41

【参考文献】

中国期刊全文数据库 前1条

1 彭慧敏;马明;郑伟;徐伟;周海锋;曾兴嘉;;在线组合输电断面极限集群计算[J];电力系统保护与控制;2012年04期



本文编号:2253496

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/2253496.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a23d6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com