一种基于信息熵的混合数据属性加权聚类算法
发布时间:2018-01-02 16:04
本文关键词:一种基于信息熵的混合数据属性加权聚类算法 出处:《计算机研究与发展》2016年05期 论文类型:期刊论文
更多相关文章: 聚类分析 混合数据 属性加权 信息熵 相异性度量
【摘要】:同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性.
[Abstract]:In order to solve the problem of attribute weighting in high - dimensional mixed data cluster , an extended Euclidean distance for mixed data is proposed in order to solve the problem of attribute weighting in high - dimensional mixed data cluster . The results show that the proposed algorithm is superior to the traditional attribute - weighted clustering algorithm and the existing attribute - weighted clustering algorithm under the information entropy framework .
【作者单位】: 山西大学计算机与信息技术学院;计算智能与中文信息处理教育部重点实验室(山西大学);
【基金】:国家自然科学基金项目(61432011,U1435212,61402272) 国家“九七三”重点基础研究发展计划基金项目(2013CB329404) 山西省自然科学基金项目(2013021018-1)~~
【分类号】:TP311.13
【正文快照】: This work was supported by the National Natural Science Foundation of China(61432011,U1435212,61402272),the NationalBasic Research Program of China(973Program)(2013CB329404),and the Natural Science Foundation of Shanxi Province ofChina(2013021018-1).(zha,
本文编号:1369924
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1369924.html