核密度估计的聚类算法

发布时间：2020-01-18 07:27

【摘要】：相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.
【图文】：

核密度估计,例子

?］为带宽，Xd为对应簇ck属性d的离散随机变量．符号xd的概率密度可以使用如下核密度估计:^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1－bkd)fk(xd)，(3)其中fk(xd)=1nk∑y∈ckI(xd=yd)，(4)为符号xd在ck第d个属性上的频度估计．由于核函数实质上是一种相似性度量［12，，18］，只要给定恰当的带宽，符号(包括不同符号和相同符号)间的相似性可以通过KDE计算．使用KDE估计离散符号概率密度的实例如图1所示，带宽值体现各符号概率分布的平滑程度．图1核密度估计的例子Fig．1Exampleforkerneldensityestimation由式(2)可知，当带宽bkd≠0，对于2个不同的符号s≠s'，有κ(ss';bkd)＞0，这个特点是传统“非此即彼”型符号匹配方法［4，8－9］不具备的．在这个度量中，符号间的距离不再依赖于符号的简单匹配，而是根据它们(视为离散随机变量Xd的观测值)概率密度的差异以衡量．式(2)还表明，这实际上是一种条件概率，由此定义的距离度量不受符号间独立假设的限制，但取决于带宽bkd的值．如何在数据驱动方式下估计最优核函数带宽是现阶段研究和应用KDE的难点问题［14，16－17］．如式(3)所示，核密度估计器需满足渐进性质［14，16］，当nk→!时^p(xd;bkd)应为p(xdk)的一致估计(ConsistentEstimator)．使用式(2)等核函数时，该性质要求nk→!时bkd→0，^p(xd;bkd)退化为频度估计，根据大数定理，该估计为p(xdk)的一致估计．2核密度估计的类属型数据聚类2．1聚类模型及其优化基于概率模型的聚类算法以最大化样本(相对于其所在簇)的似然

数据集,值分布,带宽,位点

闩嘀虿话闩噌舳

本文编号：2570758

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2570758.html

上一篇：城市公共场所密集人群检测
下一篇：一种具有访问控制的云平台下外包数据流动态可验证方法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|