当前位置:主页 > 管理论文 > 移动网络论文 >

基于Spark平台的CURE算法并行化设计与应用

发布时间:2016-08-31 00:02

  本文关键词:基于Spark平台的CURE算法并行化设计与应用,由笔耕文化传播整理发布。


《华南理工大学》 2014年

基于Spark平台的CURE算法并行化设计与应用

邱荣财  

【摘要】:近年来,云计算的研究,相应地兴起了大数据处理平台的研究,Hadoop的诞生让人们从MPI(Message Passing Interface)转向了MapReduce计算模型的研究。Spark平台通过引入RDD(Resilient Distributed Datasets)模型大大提高了其处理速度,使其在交互式计算和迭代计算方面远胜于Hadoop,擅长迭代计算的优势使得Spark处理平台非常有利于成为大数据的数据挖掘利器。大数据的核心处理之一就是数据挖掘,而处理要求也高,Spark的出现正是迎合了广大企业、学者的需求。聚类算法是数据挖掘中的一个重要部分,而如今Spark平台对聚类算法的支持只有K-means,鉴于该算法只适用于球形数据集,因此在Spark上实现对任意数据集都能够聚类的聚类算法很有必要。聚类算法中CURE算法具有很好的聚类效果,而且适用于任意数据集,但其复杂度较高,因此在Spark上实现对CURE算法的并行化可以提高聚类效率,使得聚类算法能够在大数据处理平台得以丰富起来。目前,智能移动设备引领的移动互联网非常火热,全球各企业无不对其密切关注,抓住移动市场就是抓住了关键的商机,因此非常有必要对移动互联网用户的数据进行挖掘,以便对移动用户提供个性化营销和业务推荐,留住用户为企业带来利益。 鉴于目前国内外对Spark平台上的聚类算法实现研究甚少以及前文等原因,本文将在Spark上研究CURE算法的并行化实现及其应用。本文首先对Spark平台做了详细的分析,同时对数据挖掘算法进行了分析和总结。其次,本文将聚类算法中的CURE算法进行了改进,提出了具有分散式代表点选择算法选择代表点的ACURE算法,使得选择的代表点比原有的CURE算法更加的分散,进一步改善了聚类效果。然后在Spark平台上进行了ACURE算法的数据并行和任务并行的并行化实现研究,并比较了两种并行模式的不同,得出了两者不可同时并行化、采取数据并行化更有优势的结论,同时比较了数据并行时,分区对ACURE算法的影响,并且比较了单机处理和Spark并行化处理的性能。然后将基于Spark的ACURE算法应用在移动互联网大数据的数据挖掘中,对移动互联网用户的上网行为的聚类结果和K-means的聚类结果进行了对比,得出了ACURE算法在聚类效果上更符合实际的结论,最后对移动互联网用户数据在时间、兴趣、消费水平等方面进行了深入的挖掘,为个性化推荐提供了丰富的用户内容。

【关键词】:
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前4条

1 倪维健;黄亚楼;李飞;刘赏;;一种基于加权多代表点的层次聚类算法[J];计算机科学;2005年05期

2 曹泽文;周姚;;基于MapReduce的JP算法设计与实现[J];计算机工程;2012年24期

3 王民;尹超;王稚慧;要趁红;高婧;;Binary-Positive下的并行化CURE算法[J];计算机工程与应用;2014年11期

4 张佩云;陈恩红;黄波;;基于社会网络面向个性化需求的可信服务推荐[J];通信学报;2013年12期

【共引文献】

中国期刊全文数据库 前10条

1 何文德;杨凤年;刘光灿;;无线传感器网络在文物保护中的应用[J];安防科技;2007年07期

2 刘海波;邹涛;翁哲;;无线传感器网络在执勤枪械定位中的应用[J];安防科技;2009年09期

3 张开风;胡艳军;许耀华;姜新红;仇乐乐;王福俊;高韦;丁胜建;;WSN与GPRS结合的远程图像等数据采集系统设计[J];安徽大学学报(自然科学版);2011年04期

4 林丽萍;;无线传感器网络节点的研究与应用[J];安徽职业技术学院学报;2010年04期

5 余华;孙艳红;车银超;郭玉峰;;无线传感器网络在现代农业中的应用[J];安徽农业科学;2010年04期

6 余华;吕宁波;;基于无线传感器网络的农田信息管理系统的研究[J];安徽农业科学;2010年32期

7 范书平;高巍;马宝英;;一种无线温度传感器网络中节能的路由协议[J];安徽农业科学;2011年02期

8 杨治秋;柴宝杰;;无线传感器网络在农业信息监控系统中的应用[J];安徽农业科学;2011年35期

9 归奕红;;无线传感网应用于设施农业的节能方案研究[J];安徽农业科学;2012年02期

10 秦玉伟;彭燕;;能量非均衡节点在无线传感网络立体空间的LEACH路由研究[J];安徽农业科学;2012年03期

中国重要会议论文全文数据库 前10条

1 张维勇;张芬;马学森;;基于IEEE802.15.4的一种分簇算法研究[A];第二十六届中国控制会议论文集[C];2007年

2 石为人;张阳;邓鹏程;;传感器网络局部时间同步协议研究[A];第二十六届中国控制会议论文集[C];2007年

3 刘增力;李雯霏;龙华;朵琳;;能量相关DSR协议OPNET仿真及性能分析[A];第二十七届中国控制会议论文集[C];2008年

4 罗旭;柴利;杨君;;无线传感器网络TTSL迭代定位算法[A];第二十九届中国控制会议论文集[C];2010年

5 任玲;唐昊;周雷;魏振春;;一种能量高效的无线传感器网络自适应传输方法[A];中国自动化学会控制理论专业委员会B卷[C];2011年

6 何坚;方康玲;李晓卉;韩维;;基于无线传感器网络的涉密载体智能监管系统研究[A];中国自动化学会控制理论专业委员会D卷[C];2011年

7 陈传友;张在琛;;基于ADF7020-1的无线收发模块的设计与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

8 丁飞;马小铁;;LEACH协议在群体生理参数采集中的实现[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年

9 于亮亮;刘刚;王俊;;基于IEEE802.15.4的温室环境信息采集系统[A];中国农业工程学会2011年学术年会论文集[C];2011年

10 谢宇博;刘刚;王俊;于亮亮;;基于PDA的温室环境信息管理系统的研究与开发[A];中国农业工程学会2011年学术年会论文集[C];2011年

中国博士学位论文全文数据库 前10条

1 王蕊;无线传感器网络部署与拓扑控制研究[D];哈尔滨工程大学;2009年

2 孙玉婷;基于柱形换能器的水下传感器网络组网协议研究[D];中国海洋大学;2009年

3 罗汉江;海洋监测传感器网络关键技术研究[D];中国海洋大学;2010年

4 郭瑛;基于事件触发的无线传感器网络关键技术研究[D];中国海洋大学;2010年

5 周鹏;水下传感器网络海上试验平台的研究与设计[D];中国海洋大学;2010年

6 张书奎;无线传感器网络中信息分发的可靠性研究[D];苏州大学;2010年

7 高艺;能源自给低功耗无线传感器网络关键技术研究[D];南开大学;2010年

8 吴磊;无线自组织网络中的路由技术相关问题研究[D];电子科技大学;2010年

9 陈伟;多跳无线网络路由关键技术研究[D];电子科技大学;2010年

10 王晓敏;无线传感器网络数据收集与路由协议研究[D];电子科技大学;2010年

中国硕士学位论文全文数据库 前10条

1 叶青;基于可信的无线传感器网络认证技术的研究[D];安徽工程大学;2010年

2 谌业滨;无线传感器网络自身健康状态融合机制研究[D];南昌航空大学;2010年

3 乔田田;无线传感器网络路由协议研究[D];山东科技大学;2010年

4 骆科学;基于ZigBee的无线传感器网络节点在矿井机车运输监控系统中的应用研究[D];山东科技大学;2010年

5 彭慧;面向离散型制造业的嵌入式MES检测终端开发[D];浙江理工大学;2010年

6 闭启礼;水文传感器网络部署优化研究[D];郑州大学;2010年

7 张永琦;无线传感器网络中基于网关的分级簇算法研究[D];郑州大学;2010年

8 张磊;基于无线传感器网络的实验管理系统的设计与实现[D];郑州大学;2010年

9 刘兰涛;无线传感器网络中时间同步技术的研究[D];郑州大学;2010年

10 许俊杰;无线通信技术在设备状态监测中的研究与应用[D];郑州大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 姜园,张朝阳,仇佩亮,周东方;用于数据挖掘的聚类算法[J];电子与信息学报;2005年04期

2 沈洁;赵雷;杨季文;李榕;;一种基于划分的层次聚类算法[J];计算机工程与应用;2007年31期

3 赵妍;赵学民;;基于CURE的用户聚类算法研究[J];计算机工程与应用;2012年11期

4 崔杰,任家东;分布式关联规则挖掘中的聚类分区算法[J];计算机工程;2004年23期

5 时念云;张金明;褚希;;基于CURE算法的相似重复记录检测[J];计算机工程;2009年05期

6 王玉祥;乔秀全;李晓峰;孟洛明;;上下文感知的移动社交网络服务选择机制研究[J];计算机学报;2010年11期

7 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期

8 江小平;李成华;向文;张新访;;云计算环境下朴素贝叶斯文本分类算法的实现[J];计算机应用;2011年09期

9 韩燕波;陈俊亮;王千祥;;《云计算和服务计算》专辑前言[J];计算机学报;2011年12期

10 陈克寒;韩盼盼;吴健;;基于用户聚类的异构社交网络推荐算法[J];计算机学报;2013年02期

【相似文献】

中国期刊全文数据库 前10条

1 陈再高;王玥;王建国;张殿辉;付梅艳;乔海亮;袁媛;;三维粒子模拟并行化技术研究[J];计算机工程与科学;2009年11期

2 高嵩,崔西宁;并行化高级语言的实现[J];西安工业学院学报;1997年02期

3 江岭;刘学军;汤国安;宋效东;;地形分析中坡度坡向算法并行化方法研究[J];计算机工程与科学;2013年04期

4 武继刚;一个选择算法及其并行化[J];计算机工程与设计;1996年05期

5 范植华,范路;多岔控制转换的并行化重构[J];电子学报;1999年08期

6 俞一峻,臧斌宇,施武,朱传琪;自动寻找使多重串行循环并行化的幺模变换[J];软件学报;1999年04期

7 竹居智久;邱石;;充分发挥并行化优势开拓出新的应用天地[J];电子设计应用;2006年12期

8 郭克榕,唐新春;基于多层循环并行化的负载平衡优化[J];国防科技大学学报;1997年05期

9 杨博,王鼎兴,郑纬民;构造并行化系统交互环境的若干关键技术[J];软件学报;2001年05期

10 常晓东;胡长军;李永红;;化学驱油藏数模并行化中的关键技术[J];微计算机信息;2007年28期

中国重要会议论文全文数据库 前8条

1 兰彤;冯玉才;肖伟器;;空间连接处理的并行化研究[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年

2 张雯;骆志刚;赵翔;王金华;靳新;;剪接比对软件sim4的并行化研究与实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年

3 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年

4 王峰;杨建俊;张天爵;许淑艳;;不同操作平台上的MCNP并行化计算[A];中国原子能科学研究院年报 2009[C];2010年

5 徐金秀;张天刚;;NCC区域气候模式算法分析及并行化实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年

6 陈皓;罗月童;刘晓平;;基于MPI的光子映射算法并行化[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

7 曹琰;王清贤;魏强;尹中旭;;基于相容和搜索结合的并行约束求解方法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

8 陈德华;解维;李悦;;面向大规模图数据的分布式并行聚类算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

中国重要报纸全文数据库 前3条

1 ;[N];网络世界;2006年

2 谢涛;[N];电脑商报;2008年

3 记者 鲁媛媛;[N];网络世界;2009年

中国博士学位论文全文数据库 前5条

1 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年

2 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年

3 张平;并行化编译器中并行程序自动生成和性能优化技术研究[D];解放军信息工程大学;2006年

4 傅游;稀薄气体Monte Carlo数值仿真并行化技术研究与实现[D];西北工业大学;2002年

5 董春丽;并行化编译中数据和计算的自动划分及优化技术研究[D];解放军信息工程大学;2007年

中国硕士学位论文全文数据库 前10条

1 金龑;协同过滤算法及其并行化研究[D];南京大学;2012年

2 郭锐;支持推测并行化的可扩展事务存储体系结构设计与性能评价[D];中国科学技术大学;2009年

3 王涛;关联规则算法及并行化研究[D];河北大学;2006年

4 高彦明;蚁群算法并行化研究[D];苏州大学;2005年

5 张静敏;面向CFD程序的并行化系统性能研究[D];西北工业大学;2003年

6 吴东保;药物化合物分子相似性计算的并行化研究[D];华东理工大学;2014年

7 陈小兰;Linux应用程序多核并行化方法研究与实现[D];西南交通大学;2010年

8 朱礼廷;不可压缩管流数值模拟中的算法并行化研究与实现[D];杭州电子科技大学;2011年

9 周洋;带自由表面三维浅水流动的并行化模拟研究[D];上海交通大学;2013年

10 罗爱宝;梯度下降类和EM类迭代算法的并行化研究[D];南京大学;2012年


  本文关键词:基于Spark平台的CURE算法并行化设计与应用,由笔耕文化传播整理发布。



本文编号:105968

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/105968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6be26***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com