基于Spark 云计算平台的改进K近邻算法研究
本文关键词:基于Spark 云计算平台的改进K近邻算法研究,,由笔耕文化传播整理发布。
【摘要】:随着现今时代信息的飞速发展,互联网已经步入大数据时代。在面对海量的数据,用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可以实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类算法之一。算法在云计算平台运行,可以进一步提高数据挖掘算法的运算速率。Spark云计算平台是基于Hadoop云平台的进一步优化,不同于Hadoop的完全依赖HDFS文件系统,Spark实现了在内存中处理数据集,进一步提高了云平台的数据处理速度。针对用户快速获取信息的需求,本文在Spark云计算平台上,使用并行化的改进K近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第一,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,Kd Tree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响Kd Tree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化Kd Tree中待分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。
【关键词】:Spark 云平台 分类 数据挖掘 K近邻
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP393.09
【目录】:
- 摘要4-5
- Abstract5-13
- 第一章 绪论13-19
- 1.1 研究背景与意义13-15
- 1.1.1 研究背景13-14
- 1.1.2 研究意义14-15
- 1.2 研究现状15-16
- 1.3 研究内容及主要工作16-17
- 1.4 论文结构安排17-18
- 1.5 本章小结18-19
- 第二章 Spark云计算平台的概述19-24
- 2.1 Spark简介19-22
- 2.2 Spark框架结构22
- 2.3 Spark的优势22-23
- 2.4 本章小结23-24
- 第三章 数据挖掘及分类算法的概述24-30
- 3.1 数据挖掘概述24-25
- 3.1.1 数据挖掘的定义24
- 3.1.2 数据挖掘的过程24-25
- 3.2 数据挖掘分类算法概述25-29
- 3.2.1 分类算法的步骤25-26
- 3.2.2 常用分类算法概述26-29
- 3.3 本章小结29-30
- 第四章 改进的K近邻分类算法30-45
- 4.1 K近邻分类算法的介绍30-31
- 4.1.1 K近邻分类算法的设计思想30
- 4.1.2 K近邻分类算法的实现30-31
- 4.1.3 K近邻分类算法的优缺点31
- 4.2 K近邻分类算法的索引创建31-32
- 4.2.1 Kd Tree的简介31
- 4.2.2 Kd Tree的实现31-32
- 4.2.3 Kd Tree的优缺点32
- 4.3 改进K近邻分类算法的介绍32-33
- 4.3.1 K近邻分类算法的关键改进点32
- 4.3.2 改进K近邻分类算法的优化点32-33
- 4.4 改进K近邻分类算法的实现33-40
- 4.4.1 改进K近邻分类算法的步骤33-35
- 4.4.2 改进K近邻分类算法的具体实现35-40
- 4.5 改进K近邻分类算法的并行化设计40-42
- 4.5.1 算法并行化设计方法40-41
- 4.5.2 改进K近邻分类算法并行化的实现41-42
- 4.6 数据挖掘分类算法的常用评价准则42-44
- 4.6.1 分类算法的评价准则42-43
- 4.6.2 并行化分类算法评价准则43-44
- 4.7 本章小结44-45
- 第五章 基于Spark云计算平台的改进K近邻算法研究45-50
- 5.1 Spark云计算平台的搭建45-47
- 5.1.1 搭建环境的准备45
- 5.1.2 Spark云计算平台的搭建步骤45-47
- 5.2 基于Spark云计算平台的改进K近邻算法实现47-49
- 5.2.1 基于Spark云计算平台的改进K近邻算法设计思想47
- 5.2.2 基于Spark云计算平台的改进K近邻算法核心代码47-49
- 5.3 本章小结49-50
- 第六章 实验设计和结果分析50-55
- 6.1 实验环境50
- 6.2 实验数据50-51
- 6.3 实验评价指标51
- 6.4 实验结果和分析51-54
- 6.4.1 改进K近邻算法的实验结果分析51-53
- 6.4.2 基于Spark云计算平台的并行化改进K近邻算法实验结果分析53-54
- 6.5 本章小结54-55
- 总结与展望55-56
- 参考文献56-59
- 攻读硕士学位期间发表的学术论文59-61
- 致谢61
【相似文献】
中国期刊全文数据库 前5条
1 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期
2 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
3 李兴伟;;飞跃音符间——试听飞声“SPARK”扬声器[J];中国电子商情(视听博览);1997年08期
4 孟楚;;Vienna与Spark,中西合璧的浪漫故事[J];家庭影院技术;2004年07期
5 ;[J];;年期
中国重要会议论文全文数据库 前4条
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五届全国等离子体科学技术会议会议摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二届贵州省自然科学优秀学术论文评选获奖论文集(2007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中国生理学会第23届全国会员代表大会暨生理学学术大会论文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中国材料大会2012第14分会场:先进陶瓷材料论文集[C];2012年
中国重要报纸全文数据库 前8条
1 杨娜;雪佛兰SPARK诠释微车[N];中国工业报;2003年
2 ;雪佛兰SPARK技术参数表[N];中国商报;2003年
3 若冰;雪佛兰Spark小车中的精灵[N];中国商报;2003年
4 记者 姬旺芳;天水星火SPARK商标获“中国驰名商标”[N];天水日报;2010年
5 记者 晓瑗;新西兰电信将更名为Spark[N];人民邮电;2014年
6 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
7 ;上汽通用五菱SPARK引发微车新热浪[N];中国质量报;2003年
8 黄静洁;08款SPARK乐驰上市 能否突围微轿市场?[N];东方早报;2008年
中国硕士学位论文全文数据库 前4条
1 王韬;基于Spark的聚类集成系统研究与设计[D];西南交通大学;2015年
2 陈晓康;基于Spark 云计算平台的改进K近邻算法研究[D];广东工业大学;2016年
3 王国鹏;上海市体育与健身课程与美国SPARK课程的比较研究[D];华东师范大学;2011年
4 翁炀晖;SPARK课程在高校乒乓球公选课中的应用研究[D];成都体育学院;2012年
本文关键词:基于Spark 云计算平台的改进K近邻算法研究,由笔耕文化传播整理发布。
本文编号:497984
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/497984.html