当前位置:主页 > 科技论文 > 软件论文 >

基于数据场的聚类系统的设计与实现

发布时间:2017-03-25 01:14

  本文关键词:基于数据场的聚类系统的设计与实现,由笔耕文化传播整理发布。


【摘要】:随着互联网技术的迅猛发展,网络给人们的生活和工作都带来了极大的便利,同时也产生了大量的电子数据。这些数据的大小和类型各不相同,导致人们难以按照已有的经验对其进行分类整理,这里就需要运用聚类分析的方法进行处理,提取其中有价值的信息。基于数据势场拓扑的层次聚类算法是一种新型的聚类算法,该算法可以发现任意形状的类簇,能有效地过滤数据集中的噪声点,而且算法本身不需要输入任何参数,有较高的实用价值。但是,该算法聚类过程复杂,而且无法完成基于路径类簇数据集和高维数据集的聚类分析任务,故有必要对其进行优化改造。鉴于上述情况,本文在借鉴数据势场拓扑层次聚类算法聚类思想的基础上,提出了一种新的基于数据势场的聚类算法,成功解决了前者的缺陷。总结本文主要工作如下:1、本文在数据势场思想的基础上,提出了一种新的聚类划分方法。创造性的将数据点之间的势能差与距离结合起来,找到了一条易于理解的且效果良好的聚类方法。以距离最近的高势能点作为聚类方向,将整个数据集联系到一起,并通过合理的类簇划分方法,将整个数据集根据自身分布特性划分为多个聚类。2、本文在4个聚类算法常用数据集上验证了本文聚类算法发现复杂形状类簇的能力,并与经典聚类算法Kmeans和Dbscan算法聚类结果进行对比,证实了本文聚类算法无论在聚类质量和运行效率上都有不弱于上述两种算法的能力。3、本文研究了聚类算法的噪声点处理方法,在数据势场的基础上,提出了一种有效的噪声点识别方法。4、为验证本文聚类算法在实际应用中的效果,本文将该算法在一个人脸图像数据集上与密度峰值聚类算法进行了聚类效果的对比,证明了本文算法在该数据集上识别不同人脸的能力要强于后者。
【关键词】:数据场 聚类算法 数据挖掘 噪声点过滤
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要5-6
  • abstract6-11
  • 第1章 绪论11-17
  • 1.1 研究背景和意义11-12
  • 1.2 研究现状及发展趋势12-13
  • 1.3 论文主要研究内容13-15
  • 1.4 论文组织结构15-16
  • 1.5 本章小结16-17
  • 第2章 聚类分析概述17-29
  • 2.1 聚类分析的含义和处理步骤17-18
  • 2.2 常用聚类算法介绍18-23
  • 2.2.1 基于层次的聚类18-19
  • 2.2.2 基于划分的聚类19-20
  • 2.2.3 基于密度的聚类20-21
  • 2.2.4 基于网格的聚类21-22
  • 2.2.5 基于模型的聚类22-23
  • 2.3 对象间相似度度量23-25
  • 2.3.1 距离度量23-24
  • 2.3.2 相似度量24-25
  • 2.4 聚类算法的评价标准25-28
  • 2.4.1 外部评价法26
  • 2.4.2 内部评价法26-27
  • 2.4.3 相对评价法27-28
  • 2.5 本章小结28-29
  • 第3章 数据场概述29-38
  • 3.1 数据场的引入29-30
  • 3.2 数据势场30-34
  • 3.2.1 数据场势函数公式30-31
  • 3.2.2 影响因子d与势函数31-32
  • 3.2.3 影响因子d与数据势场32-34
  • 3.3 基于数据势场拓扑的层次聚类算法34-36
  • 3.4 基于数据势场拓扑的层次聚类的缺陷36-37
  • 3.5 本章小结37-38
  • 第4章 基于数据场聚类算法的设计38-48
  • 4.1 算法的聚类思想38-39
  • 4.2 聚类中心点选取39-40
  • 4.3 噪声点的处理40-42
  • 4.4 参数sigma的讨论42-44
  • 4.4.1 一种基于经验的sigma选取方法42-43
  • 4.4.2 基于信息熵的sigma优选方法43-44
  • 4.5 算法的主要步骤44-47
  • 4.5.1 sigma的优选算法44-45
  • 4.5.2 数据势场层次类谱结构45-46
  • 4.5.3 数据点类簇的划分46-47
  • 4.6 本章小结47-48
  • 第5章 基于数据场聚类算法的实验与分析48-59
  • 5.1 复杂形状聚类实验结果与分析48-53
  • 5.1.1 复杂形状聚类实验聚类质量分析49-52
  • 5.1.2 复杂形状聚类实验运行时间分析52-53
  • 5.1.3 复杂形状聚类实验小结53
  • 5.2 噪声点过滤实验结果与分析53-56
  • 5.3 人脸识别实验结果与分析56-58
  • 5.4 本章小结58-59
  • 结论59-61
  • 参考文献61-65
  • 攻读学位期间发表论文与研究成果清单65-66
  • 致谢66

【参考文献】

中国期刊全文数据库 前5条

1 淦文燕;赫南;李德毅;王建民;;一种基于拓扑势的网络社区发现方法[J];软件学报;2009年08期

2 杨燕;靳蕃;KAMEL Mohamed;;聚类有效性评价综述[J];计算机应用研究;2008年06期

3 于洪涛;段军义;杜照丰;;一种基于聚类技术的个性化信息检索方法[J];计算机工程与应用;2008年08期

4 岳峰;孙亮;王宽全;王永吉;左旺孟;;基因表达数据的聚类分析研究进展[J];自动化学报;2008年02期

5 沈航;邹平;;可拓聚类预测方法预测卷烟销售量[J];昆明理工大学学报(理工版);2006年03期


  本文关键词:基于数据场的聚类系统的设计与实现,由笔耕文化传播整理发布。



本文编号:266460

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/266460.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0cfc8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com