2种加速K-近邻方法的实验比较
本文关键词:2种加速K-近邻方法的实验比较
更多相关文章: K-近邻 数据挖掘 MapReduce Hadoop
【摘要】:K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.
【作者单位】: 河北大学数学与信息科学学院;
【基金】:国家自然科学基金资助项目(71371063) 河北省高等学校科学技术研究重点项目(ZD20131028) 河北大学研究生创新项目(X2016059)
【分类号】:TP311.13
【正文快照】: K-近邻(K-NN:K-nearest neighbors)算法[1]是一种著名的数据挖掘算法,已成功应用于模式识别[2]、文本分类[3-4]、故障诊断[5]等.K-NN通过计算待分类样例与训练集中每一个样例之间的距离,找到距离它最近的K个样例,样例最多的类别,即为待分类样例的类别.显然,K-NN算法的计算时间
【相似文献】
中国期刊全文数据库 前10条
1 王清毅,张波,蔡庆生;目前数据挖掘算法的评价[J];小型微型计算机系统;2000年01期
2 胡浩纹,魏军,胡涛;模糊数据挖掘算法在人力资源管理中的应用[J];计算机与数字工程;2002年05期
3 万国华,陈宇晓;数据挖掘算法及其在股市技术分析中的应用[J];计算机应用;2004年11期
4 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期
5 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
6 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期
7 赵晨,诸静;过程控制中的一种数据挖掘算法[J];武汉大学学报(工学版);2005年05期
8 王振华,柴玉梅;基于决策树的分布式数据挖掘算法研究[J];河南科技;2005年02期
9 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期
10 宋中山;吴立锋;;增量数据挖掘算法在区域交通管理中的应用[J];武汉理工大学学报(交通科学与工程版);2006年03期
中国重要会议论文全文数据库 前10条
1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国重要报纸全文数据库 前1条
1 ;选择合适的数据挖掘算法[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 谢亚鑫;基于Hadoop的数据挖掘算法的研究[D];华北电力大学;2015年
2 彭军;基于新型异构计算平台的数据挖掘算法研究与实现[D];电子科技大学;2015年
3 杨维;基于Hadoop的健康物联网数据挖掘算法研究与实现[D];东北大学;2013年
4 孙兵率;基于MapReduce的数据挖掘算法并行化研究与应用[D];西安工程大学;2015年
5 张永芳;基于Hadoop平台的并行数据挖掘算法研究[D];安徽理工大学;2016年
6 李围成;基于FP-树的时空数据挖掘算法研究[D];河南工业大学;2016年
7 官凯;基于MapReduce的图挖掘研究[D];贵州师范大学;2016年
8 陈名辉;基于YARN和Spark框架的数据挖掘算法并行研究[D];湖南师范大学;2016年
9 刘少龙;面向大数据的高效数据挖掘算法研究[D];华北电力大学(北京);2016年
10 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
,本文编号:1204522
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1204522.html