当前位置:主页 > 科技论文 > 搜索引擎论文 >

快速搜索与密度峰值发现算法的研究与应用

发布时间:2022-10-09 20:39
  聚类是无监督机器学习的一种,在不需要先验知识的情况下,根据数据间的相似性将数据划分为不同的集合,称为类簇。聚类在自然科学、机械工程、生物医学等众多领域得到广泛的应用。因此,获得一种高质量的聚类算法对学术研究和生产生活都有重要的意义。根据算法分析数据的状态,聚类可以分为针对静态数据的经典聚类算法和针对数据流的数据流聚类算法。快速搜索与密度峰值发现算法DP,是新近提出的基于局部密度和距离的聚类算法。该算法具有能够发现任意形状的类簇、逻辑简单易于理解、超参数少并且可以高效划分数据的优点。但是该算法无法处理单个类簇中同时存在的多个密度峰值,以及存在数据划分不稳定的不足。同时,当数据分布不均匀时,无法准确识别稀疏类簇和小规模类簇。因此,本文聚焦于对DP算法的改进和推广,提高DP算法的聚类效果和使用范围,分别提出针对静态数据与数据流的改进算法,本文主要内容包括:1.针对静态数据,提出基于影响空间的稳健密度峰值聚类算法,I-DP(Influence Space Based Robust Fast Search and Density Peak Clustering)。该改进算法引入影响空间,制定一种... 

【文章页数】:92 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 经典聚类算法研究现状
        1.2.2 数据流聚类算法研究现状
    1.3 本文贡献和内容安排
        1.3.1 本文贡献
        1.3.2 内容安排
    1.4 本章小结
第二章 聚类相关概念与算法简介
    2.1 聚类算法概念
    2.2 经典聚类算法
        2.2.1 基于划分的聚类算法
        2.2.2 基于模型的聚类算法
        2.2.3 基于网格的聚类算法
        2.2.4 基于密度的聚类算法
        2.2.5 基于层次的聚类算法
    2.3 数据流聚类算法
        2.3.1 相关概念与定义
        2.3.2 包含两阶段的聚类算法
        2.3.3 包含单阶段的聚类算法
    2.4 快速搜索与密度峰值发现算法
    2.5 算法评价方法
        2.5.1 内部评价方法
        2.5.2 外部评价方法
    2.6 本章小结
第三章 基于影响空间的稳健密度峰值聚类算法
    3.1 影响空间
    3.2 I-DP算法
        3.2.1 相对局部密度
        3.2.2 稳健数据划分策略
        3.2.3 算法流程和分析
    3.3 实验设计和结果分析
    3.4 本章小结
第四章 基于经验数据分析的数据流密度峰值聚类算法
    4.1 经验数据分析框架
    4.2 EDA-DP算法
        4.2.1 微簇
        4.2.2 相似性
        4.2.3 算法流程
    4.3 实验设计和结果分析
    4.4 本章小结
第五章 使用I-DP算法的文本聚类
    5.1 文本聚类相关概念
        5.1.1 预处理
        5.1.2 特征提取
    5.2 文本模型
        5.2.1 VSM模型
        5.2.2 LSI模型
        5.2.3 LDA模型
    5.3 实验流程
        5.3.1 实验平台和语料选择
        5.3.2 结果分析
    5.4 本章小结
第六章 总结与展望
    6.1 论文总结
    6.2 展望
参考文献
作者在学期间所取得的科研成果
致谢


【参考文献】:
期刊论文
[1]基于空间距离自适应权重度量的粗糙K-means算法[J]. 王慧研,张腾飞,马福民.  计算机科学. 2018(07)
[2]基于LDA模型的文本聚类检索[J]. 李霄野,李春生,李龙,张可佳.  计算机与现代化. 2018(06)
[3]基于LDA改进的K-means算法在短文本聚类中的研究[J]. 冯靖,莫秀良,王春东.  天津理工大学学报. 2018(03)
[4]基于密度比例的密度峰值聚类算法[J]. 高诗莹,周晓锋,李帅.  计算机工程与应用. 2017(16)
[5]K近邻优化的密度峰值快速搜索聚类算法[J]. 谢娟英,高红超,谢维信.  中国科学:信息科学. 2016(02)
[6]快速搜索与发现密度峰值聚类算法的优化研究[J]. 蒋礼青,张明新,郑金龙,戴娇,尚赵伟.  计算机应用研究. 2016(11)
[7]基于边界距离的多向量文本聚类方法[J]. 蔡东风,王智超,季铎,张桂平.  计算机工程与应用. 2008(03)



本文编号:3689319

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3689319.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f16a6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com