基于仿射传播聚类的数据挖掘算法研究
发布时间:2017-04-07 22:11
本文关键词:基于仿射传播聚类的数据挖掘算法研究,由笔耕文化传播整理发布。
【摘要】:随着科学技术的迅速发展和网络技术的普及,人类社会已经进入到大数据时代。在很多领域中人们需要从海量数据中得到有用的知识和信息,因此产生了数据挖掘的概念,仿射传播聚类算法作为一种重要的数据挖掘算法,以相似度矩阵作为输入,构造吸引度矩阵和归属度矩阵,数据点之间通过吸引度和归属度交换有真实价值的消息,直到一个最优的类代表点集合和聚类逐渐形成。仿射传播聚类算法具有不用指定初始聚类中心及聚类的个数不需要设定等优点,但对结构复杂和维数较高的数据集存在聚类结果比较差、精度低、且聚类个数易受到偏向参数的影响。本文主要围绕仿射传播聚类算法的不足,从以下几个方面展开分析与研究:1.针对仿射传播聚类算法处理结构复杂数据集时存在聚类效果差、精度低等问题,提出了一种基于核函数的半监督仿射传播聚类算法,该算法首先利用核函数将结构复杂的输入数据集映射到特征空间,改变相似性度量,且映射后的数据集呈现线性特征;然后计算映射到特征空间数据的相似度矩阵,通过半监督学习进行调整,使属于同簇内的数据更容易成为近邻;最后将得到的相似度矩阵作为仿射传播聚类算法的输入,迭代更新得到全局最优。仿真结果比对,可以看出改进后的算法处理结构复杂数据集时聚类效果更好、精度更高。2.针对运用半监督仿射传播聚类算法处理高维数据时存在聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法,该算法首先通过局部线性嵌入算法将输入的高维数据集映射到低维空间得到低维数据集,且映射后的数据集呈现线性特征,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析。仿真结果表明改进后的算法在处理高维数据时聚类效果更好、精度更高、迭代次数更少。3.由于仿射传播聚类算法中偏向参数对聚类精度和聚类个数有着直接的影响,但其偏向参数通常都是经验取值,很可能导致得不到最优的聚类结果,针对这一问题提出了基于差分进化的仿射传播聚类算法,该算法首先进行仿射传播聚类分析,其偏向参数取经验值;然后根据得到的聚类结果判断偏向参数是否最优,如果不是则把偏向参数作为差分进化算法的输入群体;最后使用差分算法的变异、杂交和选择操作对参数进行智能调整,选择适应值最高的个体作为偏向参数,返回再次聚类。采用经典数据集验证,实验结果从类数、正确率和FMI三方面表明改进后的算法能够效地解决偏向参数对聚类结果的影响,提高了聚类精度。
【关键词】:数据挖掘 仿射传播聚类 核函数 局部线性嵌入算法 差分进化算法
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要7-8
- Abstract8-12
- 第一章 绪论12-21
- 1.1 数据挖掘的研究背景和意义12-13
- 1.2 数据挖掘过程13
- 1.3 数据挖掘研究现状13-19
- 1.3.1 数据挖掘功能14-15
- 1.3.2 数据挖掘分类15
- 1.3.3 聚类算法分类15-17
- 1.3.4 传统聚类算法17-18
- 1.3.5 数据挖掘中聚类新算法18-19
- 1.4 本文研究主要内容19-20
- 1.5 本文组织机构20-21
- 第二章 仿射传播聚类算法21-28
- 2.1 仿射传播聚类算法21-24
- 2.1.1 仿射传播聚类算法概述21-23
- 2.1.2 改进的仿射传播聚类算法23-24
- 2.2 半监督学习24-26
- 2.2.1 半监督聚类算法24
- 2.2.2 半监督仿射传播聚类算法24-26
- 2.3 算法的评价指标26-27
- 2.3.1 Fowlkes-Mallows指标26
- 2.3.2 Silhouette指标26-27
- 2.4 本章小结27-28
- 第三章 基于核函数的半监督仿射传播聚类算法28-33
- 3.1 核函数28-29
- 3.2 K-SAP算法29-30
- 3.2.1 核函数的选择29-30
- 3.2.2 K-SAP算法的步骤30
- 3.3 实验结果与分析30-32
- 3.3.1 数据信息30-31
- 3.3.2 仿真结果31-32
- 3.4 本章小结32-33
- 第四章 基于局部线性嵌入的半监督仿射传播聚类算法33-41
- 4.1 引言33
- 4.2 流形学习33-35
- 4.3 基于局部线性嵌入的半监督仿射传播聚类算法 (LLE-SAP)35-36
- 4.3.1 重构误差成本函数35
- 4.3.2 嵌入代价函数35
- 4.3.3 LLE-SAP算法步骤35-36
- 4.4 仿真实验36-40
- 4.4.1 数据信息36-37
- 4.4.2 仿真实验37-40
- 4.5 本章小结40-41
- 第五章 基于差分进化的仿射传播聚类算法41-47
- 5.1 引言41
- 5.2 差分进化算法41-42
- 5.2.1 初始化种群41-42
- 5.2.2 变异操作42
- 5.2.3 交叉操作42
- 5.2.4 选择操作42
- 5.3 DE-AP算法42-43
- 5.4 仿真实验43-45
- 5.4.1 数据信息43-44
- 5.4.2 实验结果44-45
- 5.5 本章小结45-47
- 第六章 结论与展望47-49
- 6.1 结论47
- 6.2 展望47-49
- 参考文献49-53
- 致谢53-54
- 附录 攻读硕士学位期间所发表的学术论文54
【相似文献】
中国期刊全文数据库 前10条
1 徐结绿,徐汉良,吕述望;仿射全向置换的构造和计数[J];通信技术;2003年05期
2 龚石钰;;两平面场仿射及其在工程上的应用[J];成都科技大学学报;1989年06期
3 李天宝,陈文波,石世宏;仿射图形的计算机作图方法的研究[J];南华大学学报(理工版);2003年01期
4 刘黎,董培蓓;平行线束法的仿射研究[J];工程图学学报;2004年04期
5 张青,李永慈,唐守正;基于仿射重构的树高测量[J];计算机工程与应用;2005年31期
6 张桂梅;任伟;储s,
本文编号:291428
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/291428.html