当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于流式计算的快速搜索密度峰值聚类算法研究

发布时间:2020-05-23 16:13
【摘要】:随着各种各样的智能终端、传感设备的普及,大量的流式数据由此产生,这些流式数据中蕴藏着极大的价值。但流式数据多样化、时序性、海量、持续不断等特点导致了从其中挖掘出有用信息的难度倍增。聚类分析是数据挖掘中的一种方法,它是一种无监督的学习方式,它无需对数据的先验认知就可以根据数据间的相似度将数据进行分组。利用聚类分析可以帮助人们对这些流式数据进行分析,发现其中潜在的价值。本文主要对基于快速搜索与密度峰值CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法的不足提出两点改进。第一,针对CFSFDP算法在选择聚类中心的时需要根据数据点的局部密度与距离绘制的决策图人工辅助选择的问题,引入了簇中心权值的概念,并利用异常检测的思想自动选择聚类中心。将数据集的聚类中心视为该数据集中的异常点,通过对各数据点的簇中心权值进行异常检测自动计算出数据集的聚类中心,并且通过实验证明了本文提出的聚类中心自动选择的方法与使用决策图人工辅助选择聚类中心的方法选择出的聚类中心一致。第二,针对CFSFDP算法为减少噪声对聚类结果分析的影响从而对簇进行簇核心与簇光晕的划分,将噪声点划入簇光晕中,但划分结果不够准确的问题,提出了簇内局部密度的概念,并重新设计了簇核心与簇光晕的划分标准,使得对簇进行簇核心和簇光晕划分时,处于簇边缘部分的数据点被划分入簇光晕中的概率降低,从而提高了对聚类结果分析的准确性。最后为了使优化后的CFSFDP算法可以应用于流式数据的场景,本文针对Spark Streaming平台并行化实现了优化后的CFSFDP算法,并通过实验对优化后的CFSFDP算法在Spark Streaming平台上运行的性能进行了测试和分析,得出了优化后的CFSFDP算法在Spark Streaming平台上运行时的聚类准确率较好,运行时间可以满足实时性的要求,当一个窗口间隔内接收到的数据越多时其加速比和扩展比都越大即集群内计算节点增加带来的效益越大的结论。
【图文】:

聚类分析,算法,过程,步骤


合集就是原数据对象集合[42]。逡逑虽然根据实际应用环境的不同,进行聚类分析时的选取的算法和执行的步骤会略有逡逑不同,但聚类的流程却是大致相似的。进行聚类分析的大致流程如图2.1所示,它主要逡逑包含以下几个步骤[43]:逡逑(1)

决策图,算法,数据点,聚类中心


数据点之间的距离4S斡肫渌莸阌胫嗬氲淖畲笾怠e义希茫疲樱疲模兴惴ǜ菔莸憔嗬耄び胧莸愕木植棵芏戎换嬷凭霾咄迹ü褂镁霾咤义贤既斯じㄖ∪∈菁木劾嘀行模嬷频木霾咄既缤迹玻菜尽#茫疲樱疲模兴惴ńぶ靛义洗笄遥穑到洗蟮牡闳隙ㄎ氐木劾嘀行模丛诰霾咄贾写τ谟疑辖乔蛴肫渌惴掷朊麇义舷缘牡恪T谌范ㄊ菁木劾嘀行闹笮枰龅谋憬S嗟姆蔷劾嘀行牡氖莸惆凑站皱义喜棵芏龋链哟蟮叫∫淮位值骄植棵芏缺绕涓咔矣胫嗬胱罱氖莸闼诘拇刂小T阱义贤瓿闪朔蔷劾嘀行氖莸愕幕趾蟊愕玫搅顺醪降木劾嘟峁e义希玻板危卞危卞危卞五澹保靛危卞危卞危у危卞义希保靛澹鲥义希保板濉龈谋俪桑海铃义希瑀>严:■梊,逡逑:A邋5逦?邋_逡逑-15逦U逦_邋_逡逑-20逦-10逦0逦10逦20逦0邋5逦10逦15逦20逦25逡逑X逦f)逡逑a)原始数据集逦b)决策图逡逑图2.2邋CFSFDP算法决策图逡逑CFSFDP算法不同于DBSCAN等聚类算法,其对于较低密度的数据点没有将它们逡逑判定为数据集的噪声,而是为初步聚类得到的每一个簇引入了一个光晕的概念,,簇的光逡逑晕中就包含了其他算法中所定义的噪声以及数据集中的离散点。CFSFDP算法将一个簇逡逑II逡逑
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【参考文献】

相关期刊论文 前5条

1 金建国;;聚类方法综述[J];计算机科学;2014年S2期

2 孙大为;张广艳;郑纬民;;大数据流式计算:关键技术及系统实例[J];软件学报;2014年04期

3 严霄凤;张德馨;;大数据研究[J];计算机技术与发展;2013年04期

4 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期

5 淦文燕,李德毅;基于核密度估计的层次聚类算法[J];系统仿真学报;2004年02期



本文编号:2677616

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2677616.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c399b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com