面向新浪微博的链接和内容相结合的社区划分方法
发布时间:2017-04-24 19:14
本文关键词:面向新浪微博的链接和内容相结合的社区划分方法,由笔耕文化传播整理发布。
【摘要】:现实世界中的很多系统都可以抽象为网络,如人际关系网、论文引证网、科学家合作关系网、微博用户关系网、互联网等。这些网络都具有共同特点:即复杂的内部结构,因此被称为复杂网络。已有研究表明:这些网络中包含着一些潜在的社区结构,具有社区内部节点链接稠密、社区之间节点链接稀疏的特点。通常,社区内的节点具有相似的特性,在网络中扮演着相似的角色。通过社区划分来识别网络中的社区结构,有助于人们更深入的理解网络的本质,认识网络结构与其功能的之间的关系。 然而,传统的复杂网络社区划分算法普遍缺乏对链接结构和节点内容的综合考虑。现有的链接结构与节点内容相结合的社区划分方法大多是基于概率模型的方法。这类方法有着数学形式优美、可解释性强的优点,但也存在着时间复杂度高、不易理解、应用实现较为困难的缺点。 本文针对这方面的研究不足提出了链接结构与节点内容相结合的快速社区划分算法KRLC及其改进算法2KRLC以及CKRLC算法,其中KRLC2KRLC适合对指定了社团数K的网络数据集进行社区划分,CKRLC适合对K未知的网络进行社区划分。这几种算法以K-Means算法为核心思想,综合考虑了节点的内容相似性和节点的链接结构相似性,融合了几种优秀的初始节点选取方法,有效地实现了对节点含有属性信息的内容网络进行社区划分。 另外本文还从社会网络的角度,实现了包括数据采集、文本预处理、网络建模、社区划分四个部分的微博数据分析框架。通过该框架的前三个部分,建立了真实的网络数据集:新浪微博用户关系网。最后利用本文设计的链接结构与节点内容相结合的社区划分算法来研究了新浪微博用户关系网的社团结构。
【关键词】:复杂网络 社区划分 链接相似度 内容相似度 K-Means 新浪微博
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;O157.5
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-10
- 1 引言10-14
- 1.1 研究背景10-12
- 1.1.1 复杂网络学科简介10-11
- 1.1.2 复杂网络社区划分11-12
- 1.2 研究现状12-13
- 1.3 本文的主要研究内容13-14
- 2 K-MEANS型社区划分算法的研究14-26
- 2.1 初始中心节点选取策略15-20
- 2.1.1 基于最远距离的初始中心节点选取策略16
- 2.1.2 基于PageRank算法的初始中心点选取策略16-19
- 2.1.3 基于层次聚类思想的初始中心节点选取策略19-20
- 2.2 节点相似度构造方式20-24
- 2.2.1 基于网络节点局部信息的链接属性相似度度量21
- 2.2.2 基于网络全局拓扑信息的链接属性相似度度量21-22
- 2.2.3 节点内容属性相似度度量22-24
- 2.2.4 相似度计算公式24
- 2.3 本章小结24-26
- 3 新的链接与内容相结合的K-MEANS型社区划分算法26-43
- 3.1 链接相似度与内容相似度相结合的解决方案26-28
- 3.2 KRLC算法28-30
- 3.3 2KRLC算法30-31
- 3.4 CKRLC算法31-32
- 3.5 KRLC&2KRLC算法的实验32-39
- 3.5.1 实验数据集33
- 3.5.2 评价指标33-35
- 3.5.3 实验结果及分析35-37
- 3.5.4 2KRLC算法中参数n的影响37-39
- 3.6 CKRLC算法实验39-42
- 3.6.1 实验数据集40
- 3.6.2 实验结果及分析40-42
- 3.7 本章小结42-43
- 4 新浪微博用户关系网研究43-61
- 4.1 微博用户数据分析框架44-45
- 4.2 数据采集45-50
- 4.2.1 面向新浪微博的网络爬虫45-48
- 4.2.2 采集流程48-49
- 4.2.3 原始数据结构49-50
- 4.3 数据预处理50-53
- 4.3.1 微博文本预处理相关技术介绍51-52
- 4.3.2 文本预处理相关流程52-53
- 4.4 网络建模53
- 4.5 社区划分53-59
- 4.5.1 KRLC&2KRLC划分结果以及分析54-56
- 4.5.2 CKRLC划分结果及其分析56-59
- 4.6 本章小结59-61
- 5 结论与展望61-64
- 5.1 工作总结61-62
- 5.2 结论62
- 5.3 未来的研究和工作62-64
- 参考文献64-67
- 作者简历67-69
- 学位论文数据集69
【参考文献】
中国期刊全文数据库 前2条
1 杨博;刘大有;金弟;马海宾;;复杂网络聚类方法[J];软件学报;2009年01期
2 周小平;梁循;张海燕;;基于R-C模型的微博用户社区发现[J];软件学报;2014年12期
本文关键词:面向新浪微博的链接和内容相结合的社区划分方法,由笔耕文化传播整理发布。
,本文编号:324822
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/324822.html