当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于邻近搜索技术的快速密度聚类算法研究

发布时间:2021-05-20 19:20
  随着计算机技术和网络通信技术的高速发展,各种信息化和数字化技术与社会生活的方方面面联系的越来越紧密,无论是对我们的生产、生活还是工作和思维等都引发了巨大的影响,我们已经进入了大数据时代。面对海量数据,当前一个十分重要的课题就是如何能够将这些海量数据转化为由价值的信息。机器学习、数据挖掘技术在解决这类问题中发挥了日益重要的作用。聚类分析是机器学习研究的一个重要内容,目前已经被广泛应用于图像处理、推荐系统、医疗诊断等多个领域。聚类是一个无监督的过程,聚类算法的目的是将输入的数据集基于某种相似性度量准则划分为若干个语义一致的簇。DBSCAN是最为重要的一种基于密度的聚类算法,它不需要预先指定聚类个数,可以在含有噪声的数据中识别出复杂分布的聚类。虽然DBSCAN算法有很多的优势,但是其时间复杂度为O(n2),无法高效的处理大规模高维数据。其根本原因在于DBSCAN在判断每个点是否为核心点时,需要对每个数据点做近邻搜索,而其中存在大量冗余计算。本文对造成DBSCAN冗余计算的根源进行了深度分析,并在总结前人工作的基础上,提出了基于邻近搜索技术的快速密度聚类算法(NQ-DBS... 

【文章来源】:华侨大学福建省

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 引言
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 本文的主要内容
    1.4 本文组织结构
第2章 聚类分析相关理论
    2.1 聚类分析
        2.1.1 数据处理
        2.1.2 聚类质量的评价
    2.2 经典聚类算法
        2.2.1 划分法
        2.2.2 层次法
        2.2.3 密度法
        2.2.4 网格法
    2.3 聚类算法的常见问题
        2.3.1 簇个数的确定
        2.3.2 算法的可拓展性
        2.3.3 高维数据聚类
    2.4 最近邻查找问题
    2.5 本章小结
第3章 基于邻近搜索技术的快速密度聚类算法
    3.1 DBSCAN算法
        3.1.1 DBSCAN算法相关定义
        3.1.2 DBSCAN算法流程
        3.1.3 DBSCAN算法优缺点分析
    3.2 NQ-DBSCAN算法
        3.2.1 NQ-DBSCAN算法思想
        3.2.2 NQ-DBSCAN算法流程
        3.2.3 NQ-DBSCAN算法分析
    3.3 本章小结
第4章 实验分析
    4.1 实验设置
    4.2 实验数据集
        4.2.1 人工生成数据集
        4.2.2 真实数据集
    4.3 实验结果
        4.3.1 实验一聚类结果正确性
        4.3.2 实验二噪声和维度对性能的影响
        4.3.3 实验三参数设置的影响
        4.3.4 实验四数据规模的影响
        4.3.5 实验五真实数据集实验
    4.4 综合分析
    4.5 本章小结
第5章 总结和展望
    5.1 工作总结
    5.2 研究展望
参考文献
致谢
附录:作者在攻读硕士学位期间研究成果


【参考文献】:
期刊论文
[1]基于加权模糊c均值聚类的快速图像自动分割算法[J]. 杨润玲,高新波.  中国图象图形学报. 2007(12)



本文编号:3198299

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3198299.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7dc60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com