当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于Spark的超图聚类方法研究

发布时间:2020-01-23 15:46
【摘要】:聚类方法一直是数据挖掘中的研究热点之一,近年来基于图论的谱聚类方法是一个非常活跃的研究方向。与K-Means等传统的聚类算法相比,谱聚类方法能够在任意形状的样本空间上聚类,并且收敛于全局的最优解。谱聚类利用图的邻接矩阵,计算其对应的拉普拉斯矩阵,然后求取特征值和特征向量,在特征向量上做聚类。传统的谱聚类是基于简单图的划分,而简单图模型往往对数据的多元关系表示有一定的缺陷。超图模型与传统的简单图模型相比,能够很好地对数据的高阶信息进行描述,可以将谱聚类算法应用到超图模型上。由于谱聚类本身的计算复杂度较高而且超图模型的建立比简单图也更为复杂,所以在大规模数据集上运行超图谱聚类算法,计算复杂度与存储量都会非常大,单机条件下很难应用。但是,近年来云计算和大数据处理平台的研究非常流行。比如基于MapReduce的Hadoop平台,刚刚兴起的基于RDD的Spark计算平台等都可以实现算法的并行化,提高算法的运行效率。Spark是基于内存计算的分布式平台,处理速度相比Hadoop更优,而且更擅长迭代计算,所以本文选择Spark平台,在Spark上对超图谱聚类进行并行化研究与实现。本文首先介绍了论文涉及的相关技术,包括Spark平台及其编程模型、聚类算法以及聚类效果的评价准则、简单图理论与超图的基本概念;然后介绍谱聚类算法的原理、图的划分与图的拉普拉斯矩阵之间的关系,给出超图谱聚类算法的一般步骤;其次在Spark平台上对超图谱聚类算法实现并行化,包含四个阶段的并行化:超图模型建立的并行、求取拉普拉斯矩阵的并行、求取拉普拉斯矩阵的特征值与特征向量的并行、K-Means聚类的并行;最后在公开的数据集和移动用户广告数据集上分别设计实验,在聚类效果上与传统聚类算法K-Means算法进行对比,得出了超图谱聚类算法在聚类效果上更符合实际的结论,然后在Spark平台上测试算法的运行时间,实验表明并行后的算法在性能上有一定的提升。
【图文】:

技术,并行框架,分布式框架,集群计算


分布式框架,非常适合进行海量数据的批处理与存储。除了批处理务处理的需求,Twitter公司开发的Storm系统则满足此种需求。除 AMP lab 所开发的 Spark 通用并行框架也越来越受关注,可以说是继计算平台。k 简介与系统架构源于美国加州伯克利分校 AMPLab 的集群计算平台,用于对大规具有速度快、易用和容错性等特点。它不同于 MapReduce 的中间,可以保存到内存中,因此 Spark 能够很好地适用于机器学习等rk 有很多运行模式,可以运行在 Hadoop 上,Mesos 上和 standalo以使用 HDFS、Cassandra、HBase 和 S3 等。Spark 可以使用 Sca语言来编写 Spark 应用程序,并且提供了基于 Scala、Python、R

系统架构


华南理工大学硕士学位论文常会在 master 节点上提交整个任务,此时会运行一个驱动器程序(di来发起集群上的各种并行操作,驱动器程序会创建一个 SparkContext行各种访问和操作,这个对象 sc 代表了对分布式集群的一个连接。在,存在一个或多个 executor 进程,,负责对 task 的执行。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 郭嘉凯;;云可大可小[J];软件和信息服务;2013年11期

2 范鹏飞;;超图与组合优化的探讨[J];南京邮电学院学报;1988年02期

3 郝忠孝;郭景峰;;一种基于超图的最小覆盖集求法[J];计算机研究与发展;1990年10期

4 杨春德;;伪超图开关类的若干性质[J];重庆邮电学院学报;1993年01期

5 许小满,孙雨耕,杨山,黄汝激;超图理论及其应用[J];电子学报;1994年08期

6 高则年;具有最佳连通性超图和容错多总线系统的设计[J];计算机学报;1990年11期

7 牛禄青;;超图软件:内外兼修[J];新经济导刊;2011年09期

8 郝忠孝,高岩,姚春龙;连接超图的有关理论研究I:无α环分解的基本理论[J];计算机研究与发展;1997年S1期

9 黄汝激;应用超图理论实现有向基本割集矩阵[J];电子科学学刊;1992年01期

10 冷明;孙凌宇;边计年;马昱春;;一种时间复杂度为O(m)的无向超图核值求解算法[J];小型微型计算机系统;2013年11期

相关重要报纸文章 前10条

1 本报驻东京记者 吴仲国;中国软件在日本叫响知名品牌成市场宠儿[N];科技日报;2002年

2 证券时报记者 吴中珞;超图软件信披创新 微博释疑股吧发帖详解年报延期[N];证券时报;2011年

3 本报记者 朱熹妍;地理信息火爆 超图地理专注成器[N];经济观察报;2008年

4 记者 赵一蕙;超图软件业绩快报“失准”逾20%[N];上海证券报;2013年

5 栾玲 赵培;超图软件:中国“智”造的跨国软件企业[N];中国高新技术产业导报;2010年

6 本报记者 解佳涛 戈清平;超图软件:做“中国智造”的跨国软件企业[N];中国高新技术产业导报;2010年

7 本报记者 梁爽;超图:十年打造地理信息超级版图[N];中国政府采购报;2012年

8 徐洋;北京市委书记郭金龙视察超图软件公司[N];中国测绘报;2012年

9 本报记者 郑燃;超图软件:让应急事件避免盲人摸象[N];政府采购信息报;2011年

10 江雪;钟耳顺钟情GIS[N];中国企业报;2007年

相关博士学位论文 前10条

1 古万荣;基于超图模型的新闻推荐研究[D];华南理工大学;2015年

2 孙艳萍;3一致超图的拉格朗日和最大团之间的关系的研究[D];湖南大学;2016年

3 彭豪;超图的Motzkin-Straus型结果及Frankl-F(?)redi猜想[D];湖南大学;2015年

4 吴艳;3-一致超图分解及相关问题[D];北京交通大学;2010年

5 吴颖敏;市场机遇发现的超图支持方法研究[D];华中科技大学;2009年

6 叶淼林;图与超图理论中的谱方法[D];安徽大学;2010年

7 吉日木图;图的标号及超图分解问题研究[D];大连理工大学;2006年

8 王琦;网络中的超图嵌入问题[D];山东大学;2007年

9 蔡p

本文编号:2572331


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2572331.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50185***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com