基于Spark的聚类算法实现与应用
发布时间:2025-01-04 03:25
近年来,如何在数据汪洋中高效挖掘出具有潜在价值的信息一直是数据挖掘及相关领域的研究热点。聚类分析是数据挖掘研究领域中的热门研究课题之一,DBSCAN算法是聚类分析中较为重要的一种基于密度的算法,具有速度快、有效处理“噪声”点和发现任意形状的簇等优点,但是面对大数据的挖掘,其时效性不够好。Apache Spark是当今主流的大数据处理框架,它对广泛使用的MapReduce计算模型进行了扩展,提供了基于内存的并行计算框架,通过将中间结果缓存在内存中减少了磁盘I/O操作,能够更高效的支持交互式查询、迭代式计算等多种计算需求。为了提高DBSCAN算法对大数据的聚类挖掘效率,本文对如何在Spark平台上高效地运行DBSCAN算法进行了研究,设计了基于Spark的DBSCAN算法并行化方案。该方案通过合理利用RDD和设计Sample算子、map函数、collectAsMap算子、reduceByKey算子,实现了对寻找核心对象的密度可达数据点的过程的并行化;在Spark平台上运用并行化DBSCAN算法对UCI的Wine数据集、Car Evaluation数据集和Adult数据集的聚类结果表明,并行化...
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
本文编号:4022834
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图2.1Hadoop生态系统
.4.1Hadoop计算框架分析(1)Hadoop概况Hadoop是由Apache基金会受GoogleLab的Map/Reduce和GFS(GoogleFileSyste启发所开发的,允许用户在事先不了解分布式底层详细结构的基础上开发分布式应用程以通过....
图2.2Spark计算模型
是多个dataset片段,它们分别运行在不同的集群节点上可被同时并行处理。实际上Spark并行框架计算流程就是通过待处理数据创建RDD、转化成新的RDD和调用RDD行动操作求值得到结果[47]。RDD支持两种操作类型:转化(transformation)和行动....
图3.1核心对象示例
高密度相连的点的最大集合。该算法能够将高密噪声”的数据集中识别出任意形状的聚类[51]。对于引,DBSCAN的计算复杂度是O(nlogn);否则其到的定义如下:以x为圆心的半径Eps内的球形区域称为该点x意一点x的Eps邻域内包含大于或等于最小数目3.....
图3.2密度连接示例
专业学位硕士研究生学位论文第三章基于Spark的密度聚类算法并行直接密度可达数据集D,如果点y在点x的Eps邻域中而且点x是核心对象,则称点yEps和MinPts直接密度可达的[52]。密度可达半径Eps和MinPts的数据集D中,存....
本文编号:4022834
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/4022834.html