大数据下的快速KNN分类算法
本文关键词:大数据下的快速KNN分类算法,由笔耕文化传播整理发布。
【摘要】:针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新性地在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度地减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,该算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。
【作者单位】: 广西师范学院计算机与信息工程学院;广西师范大学广西多源信息挖掘与安全重点实验室和广西区域多源信息集成与智能处理协同创新中心;
【关键词】: K最近邻 测试复杂度 大数据 分块 聚类中心
【基金】:国家自然科学基金资助项目(61450001;61263035;61573270) 国家“863”计划资助项目(2012AA011005) 国家“973”计划资助项目(2013CB329404) 广西自然科学基金资助项目(2012GXNSFGA060004;2014jj AA70175;2015GXNSFAA139306;2015GXNSFCB13901) 广西八桂创新团队、广西百人计划和广西高校科学技术研究重点项目(2013ZD04)
【分类号】:TP311.13
【正文快照】: 0引言随着互联网的迅猛发展,大数据不断地产生,分类作为当前数据挖掘中最实用的技术之一,已得到广泛的应用。目前常用的分类方法有决策树、人工神经网络、SVM、Bayes、KNN等。KNN算法因其简单和有效在分类算法中得到了广泛的应用,其基本思想是:在训练样本中找到待测样本的k个
【相似文献】
中国期刊全文数据库 前10条
1 宋杰;;蛋白质亚细胞定位预测的最近邻算法[J];计算机应用研究;2007年11期
2 张瑞民;郭海刚;李培峦;;基于核的k最近邻算法[J];华北水利水电学院学报;2007年06期
3 潘世瑞;张阳;李雪;王勇;;针对不确定正例和未标记学习的最近邻算法(英文)[J];计算机科学与探索;2010年09期
4 李强;蒋静坪;;量子K最近邻算法[J];系统工程与电子技术;2008年05期
5 宋杰;;蛋白质相互作用预测的核最近邻算法[J];计算机应用研究;2009年11期
6 周武;赵春霞;张浩峰;;动态联合最近邻算法[J];电子学报;2010年02期
7 于学斗;;基于核的K-最近邻算法的主动式防御研究[J];计算机安全;2009年07期
8 杨梦雄;杨贯中;;基于K-最近邻算法的话务智能预测技术[J];科学技术与工程;2007年21期
9 陈凯;王立松;;一种新的加权最近邻算法的降水预报试验[J];计算机仿真;2014年06期
10 谢金晶;张艺濒;;基于改进的K-最近邻算法的病毒检测方法[J];现代电子技术;2007年03期
中国重要会议论文全文数据库 前2条
1 潘世瑞;张阳;李雪;王勇;;针对不确定正例和未标记学习的最近邻算法(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
2 周晓丹;冯少荣;薛永生;;一种基于改进最近邻算法的缺失数据处理[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国硕士学位论文全文数据库 前1条
1 陈煜;基于多维度量的出租车推荐系统的研究与实现[D];大连理工大学;2015年
本文关键词:大数据下的快速KNN分类算法,由笔耕文化传播整理发布。
,本文编号:446043
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/446043.html