高维数据的聚类算法及其距离度量的研究
发布时间:2022-07-19 14:48
目前,高维数据在我们的日常生活随处可见,如何从高维数据中获取我们所需要的信息是当前研究的一个热点。对于高维数据的聚类问题,可以通过降维后使用传统的聚类算法,也可使用子空间聚类算法进行聚类,亦可使用新的距离度量方式来计算各样本点之间的距离从而来衡量相似性。本文的工作主要包括以下两个方面。(1)合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧式距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后三个距离度量相对于欧式距离可以很大程度提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离次之,扩展的杰卡德距离效果比较一般。(2)针对含有高斯噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法(Anti-noise fuzzy(c+p)-m...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外相关研究
1.3 本文主要研究内容
第二章 聚类的基本理论
2.1 聚类理论基础
2.1.1 聚类概念
2.1.2 聚类定义
2.2 聚类方法
2.2.1 五类聚类算法
2.2.1.1 基于划分的聚类算法
2.2.1.2 基于层次的聚类算法
2.2.1.3 基于密度的聚类算法
2.2.1.4 基于网格的聚类算法
2.2.1.5 基于模型的聚类算法
2.2.2 模糊C均值聚类算法
2.3 距离度量
2.3.1 距离度量方法
2.3.2 相似性度量
2.4 高维数据的聚类问题
2.4.1 对高维数据进行特征约简
2.4.2 对高维数据相似性度量进行改进
2.4.3 采用子空间聚类技术
2.5 总结
第三章 高维数据的增量式聚类算法的距离度量选择研究
3.1 引言
3.2 实验算法
3.2.1 加权模糊C均值算法
3.2.2 单程模糊C均值算法
3.3 不同的距离度量
3.3.1 基于余弦距离的SpFCM算法
3.4 实验设计及结果分析
3.4.1 算法评价指标
3.4.2 实验结果及分析
3.5 结束语
第四章 具有抗噪性能适用高维数据的增量式聚类算法
4.1 引言
4.2 相关工作
4.2.1 FCPM算法
4.3 具有抗噪性能的增量式模糊聚类算法
4.3.1 ANFCM(c+p)算法
4.3.2 算法实现
4.4 实验研究
4.4.1 评价指标
4.4.2 实验结果
4.4.2.1 实验环境
4.4.2.2 实验数据集
4.4.2.3 实验参数设置
4.4.2.4 算法性能比较
4.5 本章小结
总结与展望
总结
研究展望
致谢
参考文献
附录 :作者在攻读硕士学位期间发表的论文
【参考文献】:
期刊论文
[1]面向混合属性数据集的改进半监督FCM聚类方法[J]. 李晓庆,唐昊,司加胜,苗刚中. 自动化学报. 2018(12)
[2]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[3]基于密度峰值优化的模糊C均值聚类算法[J]. 刘沧生,许青林. 计算机工程与应用. 2018(14)
[4]一种基于决策粗糙集的模糊C均值聚类数的确定方法[J]. 石文峰,商琳. 计算机科学. 2017(09)
[5]基于融合欧氏距离与Kendall Tau距离度量的谱聚类算法(英文)[J]. 光俊叶,邵伟,孙亮,张道强. 控制理论与应用. 2017(06)
[6]基于混合距离学习的鲁棒的模糊C均值聚类算法[J]. 卞则康,王士同. 智能系统学报. 2017(04)
[7]基于贝叶斯距离的K-modes聚类算法[J]. 赵亮,刘建辉,张昭昭. 计算机工程与科学. 2017(01)
[8]基于密度和混合距离度量方法的混合属性数据聚类研究[J]. 陈晋音,何辉豪. 控制理论与应用. 2015(08)
[9]一种非噪声敏感性的模糊C均值聚类算法[J]. 陈加顺,皮德常. 小型微型计算机系统. 2014(06)
[10]一种快速的广义噪声聚类算法[J]. 武斌,武小红,贾红雯. 计算机工程与应用. 2013(13)
博士论文
[1]数据挖掘中聚类若干问题研究[D]. 赵恒.西安电子科技大学 2005
[2]高维数据挖掘中若干关键问题的研究[D]. 杨风召.复旦大学 2003
硕士论文
[1]高维数据聚类若干关键问题研究[D]. 谢明霞.解放军信息工程大学 2011
本文编号:3663612
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外相关研究
1.3 本文主要研究内容
第二章 聚类的基本理论
2.1 聚类理论基础
2.1.1 聚类概念
2.1.2 聚类定义
2.2 聚类方法
2.2.1 五类聚类算法
2.2.1.1 基于划分的聚类算法
2.2.1.2 基于层次的聚类算法
2.2.1.3 基于密度的聚类算法
2.2.1.4 基于网格的聚类算法
2.2.1.5 基于模型的聚类算法
2.2.2 模糊C均值聚类算法
2.3 距离度量
2.3.1 距离度量方法
2.3.2 相似性度量
2.4 高维数据的聚类问题
2.4.1 对高维数据进行特征约简
2.4.2 对高维数据相似性度量进行改进
2.4.3 采用子空间聚类技术
2.5 总结
第三章 高维数据的增量式聚类算法的距离度量选择研究
3.1 引言
3.2 实验算法
3.2.1 加权模糊C均值算法
3.2.2 单程模糊C均值算法
3.3 不同的距离度量
3.3.1 基于余弦距离的SpFCM算法
3.4 实验设计及结果分析
3.4.1 算法评价指标
3.4.2 实验结果及分析
3.5 结束语
第四章 具有抗噪性能适用高维数据的增量式聚类算法
4.1 引言
4.2 相关工作
4.2.1 FCPM算法
4.3 具有抗噪性能的增量式模糊聚类算法
4.3.1 ANFCM(c+p)算法
4.3.2 算法实现
4.4 实验研究
4.4.1 评价指标
4.4.2 实验结果
4.4.2.1 实验环境
4.4.2.2 实验数据集
4.4.2.3 实验参数设置
4.4.2.4 算法性能比较
4.5 本章小结
总结与展望
总结
研究展望
致谢
参考文献
附录 :作者在攻读硕士学位期间发表的论文
【参考文献】:
期刊论文
[1]面向混合属性数据集的改进半监督FCM聚类方法[J]. 李晓庆,唐昊,司加胜,苗刚中. 自动化学报. 2018(12)
[2]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏. 计算机工程与应用. 2018(10)
[3]基于密度峰值优化的模糊C均值聚类算法[J]. 刘沧生,许青林. 计算机工程与应用. 2018(14)
[4]一种基于决策粗糙集的模糊C均值聚类数的确定方法[J]. 石文峰,商琳. 计算机科学. 2017(09)
[5]基于融合欧氏距离与Kendall Tau距离度量的谱聚类算法(英文)[J]. 光俊叶,邵伟,孙亮,张道强. 控制理论与应用. 2017(06)
[6]基于混合距离学习的鲁棒的模糊C均值聚类算法[J]. 卞则康,王士同. 智能系统学报. 2017(04)
[7]基于贝叶斯距离的K-modes聚类算法[J]. 赵亮,刘建辉,张昭昭. 计算机工程与科学. 2017(01)
[8]基于密度和混合距离度量方法的混合属性数据聚类研究[J]. 陈晋音,何辉豪. 控制理论与应用. 2015(08)
[9]一种非噪声敏感性的模糊C均值聚类算法[J]. 陈加顺,皮德常. 小型微型计算机系统. 2014(06)
[10]一种快速的广义噪声聚类算法[J]. 武斌,武小红,贾红雯. 计算机工程与应用. 2013(13)
博士论文
[1]数据挖掘中聚类若干问题研究[D]. 赵恒.西安电子科技大学 2005
[2]高维数据挖掘中若干关键问题的研究[D]. 杨风召.复旦大学 2003
硕士论文
[1]高维数据聚类若干关键问题研究[D]. 谢明霞.解放军信息工程大学 2011
本文编号:3663612
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3663612.html