基于聚类算法的大数据样本集优化的研究
本文关键词:基于聚类算法的大数据样本集优化的研究,由笔耕文化传播整理发布。
【摘要】:大数据已成为继云计算之后信息技术领域中研究热点之一。如何有效的分析和处理这些呈爆炸式增长的数据并提取其中有价值的信息,是当前亟待解决的问题。然而,现有的数据挖掘算法在处理如此巨量的数据信息时往往存在很大的局限性,不仅会消耗大量的物理资源,并且获得挖掘结果的质量也不高。针对这些问题,降低数据规模、对数据进行抽样分析是解决该问题的有效途径之一。当数据增加到一定规模时,其中所蕴含的知识和模式并不是成指数增长,而是逐渐趋于平稳,所以如何通过抽样算法在降低数据规模的同时保证原数据的分布特点,使更多的数据挖掘算法能够应用于大数据的分析处理,具有很重要的研究意义。本文首先对数据挖掘中抽样算法的国内外研究成果进行了汇总,通过对这些成果的深入研究,发现了当前数据挖掘中抽样算法的特性以及存在的问题。一方面,传统的抽样算法虽然能够解决数据规模问题,但是当数据集并不是均匀分布时,就可能导致抽样效率低、样本代表性差等问题。另一方面,也有很多数据挖掘算法是采取将抽样算法融入自身的算法改进中来应对大数据问题,然而这种算法改进只针对自身算法有效而不能适用于其他算法,存在一定的局限性。针对上述问题,本文提出了一种基于聚类算法的大数据抽样算法BKMS。首先对大数据的聚类方法进行了分析,然后对聚类算法中的K-means算法进行深入研究,针对K-means算法对初始聚类中心敏感的缺陷提出了一种改进策略。通过计算每个候选点临域内所有数据点的重心作为初始聚类中心,旨在选取的每个初始聚类中心相距较远避免算法陷入局部最优,使得聚类结果更加全面准确。同时引入MapReduce并行处理框架对算法进行实现,使算法更快更高效。在此基础上提出了抽样算法BKMS,该算法基于改进的K-means算法将数据进行分类,并引入最优样本容量的确定方法,在大数据环境下,对每一类别的数据分别进行抽取,在降低问题规模的同时能够保证数据信息的分布特点。最后对算法进行了验证分析,实验结果表明本文提出的抽样方法能够抽取到更具有代表性的样本集,并且具有更少的运行时间。
【关键词】:大数据 抽样 K-means MapReduce
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- ABSTRACT4-7
- 第一章 绪论7-11
- 1.1 研究背景及意义7-8
- 1.2 国内外研究现状8-9
- 1.3 论文主要研究工作及章节分配9-11
- 1.3.1 主要研究工作9-10
- 1.3.2 论文章节分配10-11
- 第二章 相关理论研究11-21
- 2.1 经典抽样体系11-14
- 2.1.1 抽样的基本理论11-13
- 2.1.2 简单随机抽样13
- 2.1.3 分层抽样13
- 2.1.4 密度偏差抽样13-14
- 2.2 抽样算法在数据挖掘中的应用14-15
- 2.3 经典聚类算法15-18
- 2.3.1 聚类技术基本理论15-16
- 2.3.2 K-means算法16-17
- 2.3.3 DENCLUE算法17
- 2.3.4 EM算法17-18
- 2.4 大规模数据集聚类算法18-20
- 2.4.1 基于特征概括的方法18-19
- 2.4.2 基于抽样的方法19-20
- 2.4.3 基于分布式平台的算法20
- 2.5 本章小结20-21
- 第三章 基于聚类算法的样本集提取算法BKMS21-29
- 3.1 算法架构设计21-24
- 3.2 理论基础24-25
- 3.3 算法描述25-27
- 3.3.1 算法思想25
- 3.3.2 算法过程25-27
- 3.4 算法分析27-28
- 3.5 本章小结28-29
- 第四章 实验验证及分析29-36
- 4.1 实验环境29
- 4.2 实验数据29
- 4.3 实验结论及分析29-35
- 4.4 本章小结35-36
- 第五章 总结与展望36-37
- 5.1 本文工作总结36
- 5.2 下一步研究工作36-37
- 致谢37-38
- 参考文献38-41
- 作者简介41
- 攻读硕士学位期间研究成果41
【相似文献】
中国期刊全文数据库 前10条
1 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期
2 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期
3 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期
4 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期
5 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期
6 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期
7 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期
8 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期
9 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期
10 赵娟;;浅析启发式教学法在《算法分析与设计》课程中的应用[J];福建电脑;2012年06期
中国重要会议论文全文数据库 前10条
1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
5 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王万青;张晓辉;;改进的A~*算法的高效实现[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
7 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
9 张悦;尤枫;赵瑞莲;;利用蚁群算法实现基于程序结构的主变元分析[A];第五届中国测试学术会议论文集[C];2008年
10 王旭东;刘渝;邓振淼;;正弦波频率估计的修正Rife算法及其FPGA实现[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
中国博士学位论文全文数据库 前10条
1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
4 李红;流程挖掘算法研究[D];云南大学;2015年
5 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
6 黄磊;高动态环境捷联惯导信号处理及高精度姿态速度算法研究[D];南京航空航天大学;2015年
7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年
2 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年
3 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年
4 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年
5 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年
6 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年
7 郑海彬;一种面向MAPREDUCE的DATASHUFFLE的优化方法[D];苏州大学;2015年
8 赵晓寒;轮换步长PSO算法及SMVSC参数优化[D];沈阳理工大学;2015年
9 安丰洋;基于无线网络的广播算法研究[D];曲阜师范大学;2015年
10 李智明;基于改进FastICA算法的混合语音盲分离[D];上海交通大学;2015年
本文关键词:基于聚类算法的大数据样本集优化的研究,由笔耕文化传播整理发布。
,本文编号:301817
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/301817.html