当前位置:主页 > 科技论文 > 数学论文 >

影响投影寻踪聚类建模的关键因素分析与实证研究

发布时间:2019-05-24 16:12
【摘要】:讨论了由于对Friedman等提出的投影寻踪聚类(PPC)建模基本思想的理解不同而提出的六种目标函数的特点和区别,分析了样本数据三种归一化预处理方法的区别与联系,阐述了四种取不同R值方案的本质和内涵。通过实证研究和理论分析发现,目标函数Q(a)=S_z*D_z不仅应用最广,且最能体现投影寻踪的基本思想,目标函数Q(a)=S_z+D_z存在大数吃小数的问题,目标函数Q(a)=1/S_z+μ*D_z~*仅适用于高相似度的大样本数据情况,但并没有取得更好的效果,目标函数Q(a)=S_z*C*E和Q(a)=S_z*D_z*E通过增加权重信息熵和样本投影值信息熵,但并没有取得更好的聚类效果,目标函数Q(a)=S_z不符合PPC基本建模思想。样本数据不同归一化预处理方法对建模结果有显著影响,极大值归一化方法更能体现样本数据的原始结构特性,极差归一化方法有利于弱化指标之间的权重差异,去均值归一化方法可以弱化异常值的影响。局部密度窗口半径R值对建模结果有显著影响,R取较小值(R≤0.1S_z)方案更有利于区分样本,但不利于聚类,最优化过程有时候无法求得真正的全局最优解。R取较大值(2m≥R≥r_(max))方案的前提、推导过程和结果都是错误的。R=(r_(i,j))_((k))取值方案只有在类内样本之间距离的最大值小于类间样本之间距离的最小值的特殊情况下才具有意义。R在r_(max)/5≤R≤r_(max)/3范围内取适度值的方案是合理的,也与Friedman等提出的选取R合理值的思想是一致的。
[Abstract]:This paper discusses the characteristics and differences of the six objective functions proposed because of the different understanding of the basic idea of projection pursuit clustering (PPC) modeling proposed by Friedman et al., and analyzes the differences and relations among the three normalization preprocessing methods of sample data. This paper expounds the essence and connotation of four different R value schemes. Through empirical research and theoretical analysis, it is found that the objective function Q (a) = S_z*D_z is not only the most widely used, but also the most able to reflect the basic idea of projection pursuit. The objective function Q (a) = S 鈮,

本文编号:2485000

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2485000.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户37382***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com