核密度估计的聚类算法
发布时间:2020-01-18 07:27
【摘要】:相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.
【图文】:
?]为带宽,Xd为对应簇ck属性d的离散随机变量.符号xd的概率密度可以使用如下核密度估计:^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)为符号xd在ck第d个属性上的频度估计.由于核函数实质上是一种相似性度量[12,,18],只要给定恰当的带宽,符号(包括不同符号和相同符号)间的相似性可以通过KDE计算.使用KDE估计离散符号概率密度的实例如图1所示,带宽值体现各符号概率分布的平滑程度.图1核密度估计的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,当带宽bkd≠0,对于2个不同的符号s≠s',有κ(ss';bkd)>0,这个特点是传统“非此即彼”型符号匹配方法[4,8-9]不具备的.在这个度量中,符号间的距离不再依赖于符号的简单匹配,而是根据它们(视为离散随机变量Xd的观测值)概率密度的差异以衡量.式(2)还表明,这实际上是一种条件概率,由此定义的距离度量不受符号间独立假设的限制,但取决于带宽bkd的值.如何在数据驱动方式下估计最优核函数带宽是现阶段研究和应用KDE的难点问题[14,16-17].如式(3)所示,核密度估计器需满足渐进性质[14,16],当nk→!时^p(xd;bkd)应为p(xdk)的一致估计(ConsistentEstimator).使用式(2)等核函数时,该性质要求nk→!时bkd→0,^p(xd;bkd)退化为频度估计,根据大数定理,该估计为p(xdk)的一致估计.2核密度估计的类属型数据聚类2.1聚类模型及其优化基于概率模型的聚类算法以最大化样本(相对于其所在簇)的似然
闩嘀虿话闩噌舳
本文编号:2570758
【图文】:
?]为带宽,Xd为对应簇ck属性d的离散随机变量.符号xd的概率密度可以使用如下核密度估计:^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)为符号xd在ck第d个属性上的频度估计.由于核函数实质上是一种相似性度量[12,,18],只要给定恰当的带宽,符号(包括不同符号和相同符号)间的相似性可以通过KDE计算.使用KDE估计离散符号概率密度的实例如图1所示,带宽值体现各符号概率分布的平滑程度.图1核密度估计的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,当带宽bkd≠0,对于2个不同的符号s≠s',有κ(ss';bkd)>0,这个特点是传统“非此即彼”型符号匹配方法[4,8-9]不具备的.在这个度量中,符号间的距离不再依赖于符号的简单匹配,而是根据它们(视为离散随机变量Xd的观测值)概率密度的差异以衡量.式(2)还表明,这实际上是一种条件概率,由此定义的距离度量不受符号间独立假设的限制,但取决于带宽bkd的值.如何在数据驱动方式下估计最优核函数带宽是现阶段研究和应用KDE的难点问题[14,16-17].如式(3)所示,核密度估计器需满足渐进性质[14,16],当nk→!时^p(xd;bkd)应为p(xdk)的一致估计(ConsistentEstimator).使用式(2)等核函数时,该性质要求nk→!时bkd→0,^p(xd;bkd)退化为频度估计,根据大数定理,该估计为p(xdk)的一致估计.2核密度估计的类属型数据聚类2.1聚类模型及其优化基于概率模型的聚类算法以最大化样本(相对于其所在簇)的似然
闩嘀虿话闩噌舳
本文编号:2570758
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2570758.html