面向大数据集的递增聚类方法研究
发布时间:2017-03-30 21:03
本文关键词:面向大数据集的递增聚类方法研究,由笔耕文化传播整理发布。
【摘要】:随着信息技术的不断发展,数据挖掘、搜索引擎、大数据等领域受到了人们越来越多的关注。聚类技术,尤其是大数据背景下的聚类技术,在数据分析领域得到了广泛的应用,也成为了近年来专家学者们的研究热点。现有的聚类技术的研究主要侧重于静态的单一聚类算法,即在进行聚类之前,对整体数据集进行一次扫描。但是,在大数据背景下的很多应用场景,数据流本身是动态生成和读取的,也受限于空间和时间的限制,静态聚类算法有其一定的限制。另外,数据集本身的分布、聚类算法的参数选择等因素对聚类结果有着很大的影响,只使用单一的一种聚类算法对数据集进行分析存在较大的风险。在这样的背景下,本文主要进行了下述两个方面的工作:(1)本文提出了一种新的递增聚类算法——基于高斯混合模型树的递增聚类算法。随着数据流的读入,数据不断地被插入到高斯混合模型树,高斯混合模型树也随之自底向上的被构建。构建树的过程即递增聚类的过程。树的叶子节点对应着稠密的单高斯数据分布,树的非叶子节点对应着高斯混合模型分布。递增聚类树构建完毕之后,树的节点对应着聚类的结果。(2)本文提出了一种新的融合聚类算法——基于高斯混合模型和证据理论的融合聚类算法。在多组候选聚类结果的基础上,引入证据理论计算每个数据点在不同候选聚类结果下的置信度,通过新计算出的融合后的置信度确定该数据点的聚类归属。本文对提出的算法进行了详细的实验,分别在人工生成数据集、二维点数据集、真实数据集上进行实验,对聚类算法的准确性、时间复杂度、空间复杂度、稳定性、可扩展性、参数敏感性等重要指标进行了测试,并与现有的静态聚类算法、递增聚类算法和融合聚类算法进行比较。实验证明,本文提出的递增聚类算法和融合聚类算法取得了很好的效果,具有较强的实际应用意义。
【关键词】:递增聚类 融合聚类 高斯混合模型 证据理论 大数据
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP202
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-16
- 1.1 引言9-10
- 1.2 研究现状10-13
- 1.2.1 静态聚类方法研究现状10-11
- 1.2.2 递增聚类方法研究现状11-13
- 1.2.3 融合聚类方法研究现状13
- 1.3 研究目标和内容13-15
- 1.3.1 研究目标13-14
- 1.3.2 研究内容14
- 1.3.3 主要问题和难点14-15
- 1.4 论文结构15-16
- 第2章 背景知识16-22
- 2.1 引言16
- 2.2 高斯混合模型16-17
- 2.3 高斯混合模型相似性度量公式17
- 2.4 证据理论17-18
- 2.5 实验数据库及评价准则18-20
- 2.5.1 实验数据库18-19
- 2.5.2 评价标准19-20
- 2.6 本章小结20-22
- 第3章 基于高斯混合模型树的递增聚类算法22-49
- 3.1 引言22
- 3.2 本文方法22-32
- 3.2.1 高斯混合模型树23-24
- 3.2.2 数据插入24-25
- 3.2.3 数据删除25-28
- 3.2.4 聚类树的更新28-30
- 3.2.5 聚类结果的确定30-32
- 3.3 实验32-47
- 3.3.1 实验设置32-33
- 3.3.2 实验结果与分析33-47
- 3.4 本章小结47-49
- 第4章 基于高斯混合模型和证据理论的融合聚类算法49-57
- 4.1 引言49-50
- 4.2 本文方法50-53
- 4.2.1 基于高斯混合模型的数据拟合方法50-51
- 4.2.2 基于证据理论的融合聚类算法51-53
- 4.3 实验53-56
- 4.3.1 实验设置53-54
- 4.3.2 实验结果与分析54-56
- 4.4 本章小结56-57
- 第5章 总结与展望57-59
- 5.1 本文工作总结57-58
- 5.2 下一步工作展望58-59
- 参考文献59-65
- 攻读学位期间发表论文与研究成果清单65-66
- 致谢66
【参考文献】
中国期刊全文数据库 前1条
1 于达仁,胡清华,鲍文;融合粗糙集和模糊聚类的连续数据知识发现[J];中国电机工程学报;2004年06期
本文关键词:面向大数据集的递增聚类方法研究,,由笔耕文化传播整理发布。
本文编号:278059
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/278059.html