当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于K近邻方法的密度峰值点快速搜索聚类算法研究

发布时间:2020-11-09 12:26
   人工智能理论和技术飞速发展,其中最重要的领域之一,数据挖掘和机器学习,正在不断地影响和改变人们的工作和生活。迄今为止,机器学习已被应用到很多的领域,例如电商的CRT预估,股票的量化交易,文本或声音信息的处理,图像识别与自动驾驶,个性化推荐等等。这些技术无疑会使我们的生活更加便捷。在众多应用领域中,聚类分析是一类重要的应用技术。2014年出现的密度峰值点快速搜索聚类算法(DPC)是一种新颖的聚类算法,它利用样本的密度和不同样本间的距离实现聚类,整个过程简单高效。但是,传统DPC算法在识别不同密度类簇、发现任意形状的类簇和噪声去除方面存在不足。本文结合K近邻法的思想,针对这两个不足,提出了两种DPC算法的改进算法。论文的主要工作如下:(1)针对传统DPC算法无法有效识别不同密度类簇的不足,利用K近邻图,提出一种基于K近邻图的密度峰值点快速搜索聚类算法(KG-DPC)。改进算法定义了一种新的密度估计函数,计算样本的K近邻样本集合与K近邻距离集合,通过给定样本的K近邻距离估计样本密度。再计算样本距离,使用决策图选择聚类中心,根据改进的样本分配法则进行聚类。最后,根据K近邻集合完成二次聚类。实验结果表明,KG-DPC算法相较于DPC算法在区分不同密度类簇方面有明显提升,在对人脸数据集聚类的实验中表示其准确率优于DPC算法。(2)针对DPC算法识别噪声数据和难以发现任意形状类簇的不足,结合K近邻方法和DBSCAN算法,提出基于噪声去除的密度峰值点快速搜索聚类算法(NR-DPC)。NR-DCP算法使用K近邻距离集合估计样本噪声指标,对数据集进行分层,选择密度较高样本。再使用噪声指标估计样本密度,计算样本距离,使用决策图选择聚类中心。最后使用DBSCAN算法策略从密度最高的聚类中心为起点扩张类簇。实验结果表明,NR-DPC算法在大多数的指标中都优于DPC算法。对文本试题数据的聚类结果显示,NR-DPC算法的准确率提升明显,具有实际应用意义。
【学位单位】:山东科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.13;TP18
【部分图文】:

教育功能


析%通过对用户的搜索记录和学习反馈,可以提供个性化推荐[5],分析学生对??知识点的掌握情况,做到查漏补缺举一反三。图U显示了?AI教育的主要功能??图。从图1.1中可以看出,无论是个性化推荐,还是用户行为分析或者其它功??能,归根结底是对数据的分类聚类。通过对目标标签的分类或聚类,实现这一??系列的功能。同事为以后的一系列定制化服务提供决策的基础。??K催碰荐)??f?\??{用户行为分析)??hsssutsasA?1 ̄ ̄?V?/??付费答疑)??(靡删yj??图1.1?ai教育功能图??Fig.?1.1?function?map?for?AI?educational??目前对数据的处理方法主要包括了分类和聚类两个方面。分类方法主要是??常见的多层感知机神经网络和一些集成学习方法比如GBDTW和??1??

聚类算法,经典,簇中,样本


???_????图2.2?X-MEANS聚类算法过程??Fig.?2.2?The?clustering?process?of?/(T-MEANS?algorithm??基于划分的聚类方法%],主要思想是聚类前选择合适的聚类中心数々与临??界阈值,对于给定的包含〃个样本的数据集,将中所有样本划分到a个类簇中。??这个迭代过程中只要所有样本与其类簇中心的距离没有超过临界阈值,就将其??6??

过程图,聚类算法,过程


m?m?m?m??图2.1不同的类簇划分??Fig.?2.1?Different?clusters?division??2.1.2经典聚类算法??经过大量学者的对聚类算法的不断研宄,出现了许多经典的聚类算法。目??前,经典的聚类算法大致可分为以下几种,它们分别是基于划分的聚类算法,??密度聚类算法,层次聚类算法,网格聚类算法,基于模型的聚类算法。??Ipvp?IpV??參???_????图2.2?X-MEANS聚类算法过程??Fig.?2.2?The?clustering?process?of?/(T-MEANS?algorithm??基于划分的聚类方法%],主要思想是聚类前选择合适的聚类中心数々与临??界阈值,对于给定的包含〃个样本的数据集,将中所有样本划分到a个类簇中。??这个迭代过程中只要所有样本与其类簇中心的距离没有超过临界阈值,就将其??6??
【相似文献】

相关期刊论文 前10条

1 李肃义;徐壮;熊文激;蒋善庆;吴疆;;一种光电容积脉搏信号的峰值点自动识别方法[J];光谱学与光谱分析;2017年10期

2 王家圆;;CFRP加固矩形截面柱峰值点应力模型建立[J];低温建筑技术;2016年04期

3 张晓清,张建科,方敏;多峰搜索的动态微粒群算法[J];计算机应用;2005年11期

4 李炜;;强度折减法求解边坡稳定安全系数研究[J];水运工程;2008年08期

5 蒋寿田;;剪胀性土强度破坏标准的选择[J];人民黄河;1986年06期

6 ;上期想想看答案[J];电世界;2015年10期

7 张克军;王斌全;成娜莎;王长生;王宁;刘太琴;;太原市30年2次花粉调查春秋季花粉变迁对比分析[J];中国耳鼻咽喉头颈外科;2012年08期

8 唐耀武;高纯斌;;模糊控制在光伏发电系统输出功率峰值点跟踪上的应用[J];科技风;2018年24期

9 沈利生;我国潜在经济增长率变动趋势估计[J];数量经济技术经济研究;1999年12期

10 邹焕新,郁文贤,匡纲要,郑键;基于峰值点形态信息的SAR图像舰船尾迹检测算法[J];国防科技大学学报;2005年02期


相关博士学位论文 前1条

1 胡轶;基于声弛豫吸收谱线峰值点的气体传感技术研究[D];华中科技大学;2016年


相关硕士学位论文 前10条

1 陈钊;水下开口弹性空腔振动及声辐射特性研究[D];华中科技大学;2019年

2 贾培灵;基于K近邻方法的密度峰值点快速搜索聚类算法研究[D];山东科技大学;2018年

3 赵云;心律失常的心电监护与辅助诊断系统[D];郑州大学;2010年

4 张晓清;粒子群算法及其在模式识别领域中的应用[D];西安电子科技大学;2006年

5 马士忠;钢筋混凝土梁的非线性有限元分析和变形能力计算[D];湖南大学;2008年

6 屠志海;心音信号的分析方法研究[D];华东师范大学;2011年

7 刘全龙;鞋楦对女鞋舒适性的影响[D];北京服装学院;2010年

8 汪振兴;心电信号特征提取和ST段识别算法研究[D];重庆大学;2012年

9 姚红兵;基于眼镜框架的生理信号检测技术的研究[D];东南大学;2016年

10 张彪;连续波多普勒引信抗扫频式干扰方法研究[D];北京理工大学;2016年



本文编号:2876430

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2876430.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8a174***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com