基于分布式的谱聚类算法在虚拟社区发现上的应用研究
本文关键词:基于分布式的谱聚类算法在虚拟社区发现上的应用研究,由笔耕文化传播整理发布。
【摘要】:社交网络中由于用户年龄、职业、兴趣等的不同会呈现出社区结构特性,社区发现是社区结构特性的研究基础和核心。社区发现可以分析不同社群间用户的关系、发现隐藏在社区内部的规律、追踪网络中的热点话题等,对好友推荐、精准营销等都具有非常重要的作用。目前有大量的社区发现方法,而谱聚类方法是基于图理论的社区发现算法,适用于社交网络这种可以抽象成用户关系图的数据。传统的谱聚类算法因为时间复杂度高等原因大多应用在节点规模比较小的网络上,而社交网络则是具有海量用户的网络,这对传统的谱聚类算法提出了挑战。本文主要研究内容就是将现在应用非常广泛的分布式大数据计算框架Hadoop应用到大规模社区发现中,针对社交网络数据的特性,设计了合理的用户相似度模型,弥补了传统的谱聚类算法无法确定聚类个数、计算耗时长等缺陷,使其在大规模社区发现问题上的效率得以提高,以解决传统谱聚类算法只能适用于小规模社区发现等问题。本文针对谱聚类算法无法确定社区个数的缺点,提出了在社区结构明显的场景下应用基于PageRank的社区数目发现算法,得益于PageRank算法良好的并行性,使其可以在大规模数据集中运用并行计算来提高发现社区数目的效率;在社区结构不明显的网络中,提出基于模块度优化的谱聚类算法来发现社区数目。本文选用被公众使用较多的微博社交网络作为实验验证,微博中用户有微博内容、关注、粉丝、交互、个人信息等众多的属性。本文综合四类用户属性信息,构建了更加合理的用户相似度模型。针对谱聚类算法应用于社交网络这个特殊场景提出了使用HBase存储中间结果、控制分块大小、使用Uber模式等一系列Hadoop优化策略。
【关键词】:分布式 谱聚类 虚拟社区发现
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- ABSTRACT4-7
- 第一章 绪论7-13
- 1.1 研究背景及意义7-8
- 1.2 课题国内外研究现状8-11
- 1.3 论文研究的主要内容11-12
- 1.4 本章小结12-13
- 第二章 相关理论13-24
- 2.1 k-means算法理论13-14
- 2.2 谱聚类算法14-20
- 2.3 Hadoop概述20-23
- 2.4 本章小结23-24
- 第三章 分布式环境中谱聚类算法实现24-32
- 3.1 k-means并行计算策略24
- 3.2 基于Normalized的谱聚类算法24-25
- 3.3 用户特征选取25-27
- 3.4 聚类个数确定27-28
- 3.5 谱聚类并行化设计28-29
- 3.6 Hadoop性能调优29-31
- 3.7 本章小结31-32
- 第四章 实验验证32-43
- 4.1 实验环境32
- 4.2 实验数据介绍32-35
- 4.3 社区数目确定35-37
- 4.4 算法精确度实验37-39
- 4.5 算法执行效率实验39-42
- 4.6 本章小结42-43
- 第五章 总结与展望43-45
- 5.1 论文工作总结43
- 5.2 未来工作展望43-45
- 参考文献45-49
- 致谢49
【相似文献】
中国期刊全文数据库 前10条
1 蔡晓妍;戴冠中;杨黎斌;;谱聚类算法综述[J];计算机科学;2008年07期
2 汪中;刘贵全;陈恩红;;基于模糊K-harmonic means的谱聚类算法[J];智能系统学报;2009年02期
3 孙昌思核;孔万增;戴国骏;;一种自动确定类个数的谱聚类算法[J];杭州电子科技大学学报;2010年02期
4 兰洋;;改进谱聚类算法在高等院校人才选拔中的应用[J];信阳师范学院学报(自然科学版);2010年04期
5 张力文;丁世飞;许新征;朱红;徐丽;;一种基于成对约束的谱聚类算法[J];广西师范大学学报(自然科学版);2010年04期
6 施培蓓;郭玉堂;胡玉娟;俞骏;;多尺度的谱聚类算法[J];计算机工程与应用;2011年08期
7 杨晓慧;王莉莉;李登峰;;一种新的层次谱聚类算法[J];上海理工大学学报;2014年01期
8 朱强生;何华灿;周延泉;;谱聚类算法对输入数据顺序的敏感性[J];计算机应用研究;2007年04期
9 金慧珍;赵辽英;;多层自动确定类别的谱聚类算法[J];计算机应用;2008年05期
10 孙大雷;孟凡荣;闫秋艳;;一种初始化不敏感的谱聚类算法[J];微电子学与计算机;2012年07期
中国博士学位论文全文数据库 前1条
1 吕绍高;统计学习中回归与正则化谱聚类算法的研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李纯;快速谱聚类算法的研究与应用[D];哈尔滨工程大学;2012年
2 董彬;一种基于主动学习的半监督谱聚类算法研究[D];中国矿业大学;2015年
3 刘萍萍;基于特征间隙检测簇数的谱聚类算法研究[D];南京邮电大学;2015年
4 孙承祥;双馈型风电机组的风电场建模研究[D];华北电力大学;2015年
5 崔慧岭;一种面向大数据的文本聚类算法[D];湖北师范大学;2016年
6 徐大海;基于分布式的谱聚类算法在虚拟社区发现上的应用研究[D];暨南大学;2016年
7 郑杨帆;基于图论的谱聚类算法研究和实现[D];华南理工大学;2012年
8 高倩;基于模糊理论的谱聚类算法研究与应用[D];江南大学;2009年
9 宋少宇;基于流形距离核的谱聚类算法研究及其应用[D];哈尔滨工程大学;2012年
10 孟超;分布式环境下谱聚类算法研究[D];北京邮电大学;2013年
本文关键词:基于分布式的谱聚类算法在虚拟社区发现上的应用研究,,由笔耕文化传播整理发布。
本文编号:252013
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/252013.html