当前位置:主页 > 科技论文 > 软件论文 >

基于混合型数据表示的聚类集成算法

发布时间:2021-03-24 18:51
  聚类分析是数据挖掘中的一个重要研究领域,已被广泛应用于图像处理、信息检索和生物信息学等研究领域。目前,已有多种聚类算法被发展。由于数据的复杂性,单一聚类算法无法有效地完成聚类任务。如何将多个聚类结果进行融合(即聚类集成)已成为聚类分析的一个重要研究内容。在聚类集成过程中,集成结果的有效性容易受到基聚类的质量的影响。为此,本文针对该问题开展了深入的研究工作,其中主要的研究成果包括如下:(1)将基聚类看作数据的符号特征与其原有特征进行合并,提出了一种基于混合型数据表示的聚类集成算法。该算法对K-Prototypes算法进行扩展,通过不断迭代更新基聚类,使得获得的集成结果同时对原数据类结构和基聚类具有较高的一致性。在UCI数据集上将新算法与其它聚类集成算法进行了实验比较分析。实验结果表明提出的算法相比其它算法能够在测试数据集上获得更加有效性的集成结果。(2)在第一项研究工作的基础上,本文将原数据特征信息、监督信息和基聚类信息进行融合,提出了一种基于混合型数据表示的半监督聚类集成算法。该算法利用非负矩阵分解聚类算法获得和更新基聚类。获得的聚类结果同时对原数据特征信息、监督信息与基聚类信息有着较... 

【文章来源】:山西大学山西省

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

基于混合型数据表示的聚类集成算法


数据表示本章使用K-Means聚类算法生成基聚类,将用数据集进行T次K-Means得到基

示意图,算法,示意图,混合型数据


基于混合型数据表示的聚类集成算法p2. 在混合型数据中随机选取k 个对象作为初始类原型;p3. 对数据集中的每个对象,根据公式(2-5)计算其与每个类原型的相异分配到与其最近的类原型所代表的类中;p4. 重新计算每个类的类原型:数值型属性部分取类内全部对象的均值部分取出现次数最多的属性组成类原型;p5. 循环 Step3~Step4,直到每个类中的对象不再发生变化为止;p6. 将Step2~Step5循环T 次,将每次得到的结果矩阵替换Step1中的基聚p7. Step6 循环Q次结束,在最终的结果矩阵中选取结果类标签。

数据表示


T 次基聚类结果下对象i与对象 j划分在一类的次数,根据公式(3-1)计算:1( , ) ( , ),1,( , )0,Tit jttit jtit jtit jtB i j R RR RR RR R (3-在监督信息特征空间中,将成对约束表示成n n的矩阵S。对于给定的同一集上,成对约束具有对称性和传递性[52]。根据下述公式计算对象点之间的相似度保证相似性矩阵 S 的非负性:101,( , )( , ) 1,1/ ,( , )i ji je e X X MS i j e unknowe e X X C (3-这样,在原数据、基聚类、监督信息三种特征空间上分别构造 n n的矩阵D 和 S 后,将三个相似性矩阵线性结合构造一个新矩阵1 2 3L w D w B wS,其中1w、3w分别为原数据、基聚类及监督信息的权重,数据表示见图 3.1。

【参考文献】:
期刊论文
[1]一种基于混合型数据表示的聚类集成算法[J]. 李鑫,白亮.  郑州大学学报(理学版). 2019(02)
[2]基于贝叶斯网络的半监督聚类集成模型[J]. 王红军,李志蜀,戚建淮,成飏,周鹏,周维.  软件学报. 2010(11)
[3]基于属性重要性的加权聚类融合[J]. 阳琳赟,周海京,卓晴,王文渊.  计算机科学. 2009(04)
[4]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇.  软件学报. 2008(01)
[5]基于Bagging的选择性聚类集成[J]. 唐伟,周志华.  软件学报. 2005(04)
[6]数据挖掘综述[J]. 钟晓,马少平,张钹,俞瑞钊.  模式识别与人工智能. 2001(01)

博士论文
[1]聚类集成关键技术研究[D]. 罗会兰.浙江大学 2007



本文编号:3098212

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3098212.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fd255***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com