当前位置:主页 > 科技论文 > 软件论文 >

基于属性值分布特征的分类数据和二值数据聚类研究

发布时间:2021-03-26 01:11
  随着信息技术发展,管理领域的数据量越来越大,具有数据类型丰富和未标记的特点,急需有针对性的无监督学习工具。聚类是无监督学习的重要环节,针对数值型数据的聚类研究已经取得了很好的成果,对于分类数据和二值数据的聚类分析仍有不足。本文从数据对象在分类属性和二值属性的分布特点入手,对分类数据聚类算法、内部评价指标选择、分类数据和二值数据聚类有效性内部评价问题进行了研究,提供了完整的聚类分析解决方案,具体研究包括以下内容。(1)聚类有效性内部评价是聚类分析的关键环节,由于每个内部评价指标有各自的适用范围,在对特定的数据集进行聚类分析时需要找到适合的内部评价指标。本文在总结内部指标评价能力衡量方法的基础上,重点分析了通过外部评价指标选择内部评价指标的方法,通过理论和实验对外部指标的偏性以及利用单一外部指标衡量内部指标评价能力方式不足进行了总结。利用D-S证据理论合成多个外部指标评价结果提出了内部评价指标的选择策略(Strategy of Internal clustering validity indices selected based on Dempster-Shafer evidence th... 

【文章来源】:北京科技大学北京市 211工程院校 教育部直属院校

【文章页数】:179 页

【学位级别】:博士

【部分图文】:

基于属性值分布特征的分类数据和二值数据聚类研究


图1-1论文结构及框架图??

数据类型


数据类型是决定相似度或差异度的主要因素,也对聚类分析的算法选择,??有效性评价等环节有重要影响。数据的分类标准有很多,按照单一的属性,??可以将数据类型按图2-2划分同。??数据类型??.?1??I?|?|?1??离散型数据连续型数据??I ̄'?1?,?' ̄ ̄ ̄1??分类数据二值数据顺序数据??1?1??对t值数据?不对#T值数据??图2-1数据类型图??如图2-1,在聚类分析中,常用的数据类型有以下4种基本变量:区间??变量(Interval?variable)、二值变量或布尔变量(Binary?variable/Boolean??variable)、分类变量(Categorical?variable)、顺序变量(Ordinal?variable)。这??4种变量可以相互转换。基于这些变量,对应产生4种常见的数据类型:区??间数据(数值型数据)、二值数据、分类数据、顺序数据。??早期的聚类分析在设计的过程中通常都是针对连续型的区间变量。但是??离散型的分类变量和二值变量不存在顺序,难以采用连续型数据的度量方式??计算差异度或相似度。离散型数据聚类中最关键的工作也就是相似性或差异??性的度量。同理,离散型的另一个关键点是定义一个数据集合的的中间表示??或概要表示,比如k-modes算法中,用众数概念定义类中心,借此描述一个??数据集合的特征。??(1)区间变量??区间变量属于数值型变量,是一种连续变量。例如企业的营业收入、学??生的成绩、距离及物体质量等。假设一个m维数据集X={x

模型图,聚类分析,模型,聚类算法


过程不涉及此过程[31]。第五阶段是解释阶段,涉及对通过对各个类特征的描??述以及对每个类的命名,从而更好的表述每个类的特征。第六阶段是聚类有??效性的评价和分析。详细过程如图2-2。??描述研究问题??卜?1?—??相似度选取?? ̄ ̄?i?—??样本选择?? ̄ ̄?i?—??聚类算法选择?? ̄ ̄?1?一??结果解释?? ̄ ̄?1?一??聚类有效性评价及分析??图2-2聚类分析六阶段模型??以人力资源管理中的人才识别(Talent?Identification)为例。以员工为简??历中的各项信息为各数据对象的研究变量,及待研究数据集的属性,通过专??家分析,和相关性分析,确定属性。根据数据类型选择合适的聚类算法,给??-13?-??


本文编号:3100658

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3100658.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2420e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com