当前位置:主页 > 科技论文 > 软件论文 >

面向大数据处理的并行优化抽样聚类K-means算法

发布时间:2017-10-17 23:40

  本文关键词:面向大数据处理的并行优化抽样聚类K-means算法


  更多相关文章: 大数据 K-均值 概率抽样 欧氏距离 聚类精度


【摘要】:针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。
【作者单位】: 湖南大学信息科学与工程学院;
【关键词】大数据 K-均值 概率抽样 欧氏距离 聚类精度
【基金】:国家自然科学基金资助项目(61173107) 国家863计划项目(2012AA01A301-01)~~
【分类号】:TP311.13
【正文快照】: 0引言随着信息技术的不断深入发展,许多大型企业、机构与组织持续获得了各种体量巨大、结构各异的数据,同时也面临着高效存储、处理与分析这些有价值数据的技术问题。从大数据集中高效地挖掘出有用的信息将具有重要的意义[1-2]。聚类算法是数据挖掘的重要内容[3-5],在工商业以

【相似文献】

中国期刊全文数据库 前10条

1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期

2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期

3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期

4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期

5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期

6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期

7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期

8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期

9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期

10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期

中国重要会议论文全文数据库 前10条

1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年

2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年

3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年

5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年

7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

中国重要报纸全文数据库 前1条

1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年

中国博士学位论文全文数据库 前10条

1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年

2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年

3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年

4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年

5 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年

6 张冬丽;人工蜂群算法的改进及相关应用研究[D];燕山大学;2014年

7 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年

8 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年

9 王艳娇;人工蜂群算法的研究与应用[D];哈尔滨工程大学;2013年

10 杨世品;P系统优化算法及应用研究[D];浙江大学;2013年

中国硕士学位论文全文数据库 前10条

1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年

2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年

3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年

4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年

5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年

6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年

7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年

8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年

9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年

10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年



本文编号:1051714

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1051714.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户03adf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com