复杂网络聚类方法及其在舆情主题分析中的应用研究
本文关键词:复杂网络聚类方法及其在舆情主题分析中的应用研究,,由笔耕文化传播整理发布。
【摘要】:大数据时代,庞大的用户群及用户间的连接关系使得社交网络对网络舆情发展产生了重要的影响。微博作为web2.0的自媒体代表和网络舆情信息的来源,每天用户通过微博进行交流产生的信息数以亿计。为了对微博网络进行较为全面的分析,需要分别针对用户网络和文本网络进行相应研究。因此,从用户网络中有效地划分出交联社团并且在微博文本中准确地识别出不同的主题对舆情分析有着重要的意义和价值。本文在现有复杂网络聚类算法的基础上,对原有的模糊聚类算法进行了改进,实现对复杂网络交联社团结构的划分。基于文本主题聚类方法,对文本主题进行提取,以便发现网络舆情主题信息,掌握网络舆情的动态。本文的主要研究内容有以下几个方面:(1)首先介绍了复杂网络聚类算法和网络舆情主题分析的研究现状,并对复杂网络的社团结构的基础理论以及社团划分质量衡量标准进行了详述。对复杂网络社团划分的主流算法和交联社团划分算法进行了详细地介绍和分析。(2)从聚类方法理论出发,说明了聚类和复杂网络社团划分的联系。在模糊聚类算法的基础上引入衡量社团划分质量指标的Q值,一定程度上缓解了FCM(Fuzzy C-Means)算法聚类数难以确定的问题,并基于改进的FCM算法进行复杂网络交联社团划分。在两个经典数据集上应用改进的FCM算法,实验结果表明改进后的算法可以有效地发现复杂网络中的交联社团。(3)基于对主题聚类模型详细介绍,将利用Gibbs抽样的狄利克雷分配模型用于文本主题分析研究上,得到文档-主题和主题-特征词概率矩阵,从而推理出文本的隐含主题变量。对天涯论坛文本数据进行LDA(Latent Dirichlet Allocation)建模,实现了天涯论坛文本主题挖掘,并进行了分析。(4)依照微博网络利用聚类算法进行了一定的主题分析。微博网络分为用户层和博文层两个层级。利用真实的新浪微博数据,基于改进的FCM算法对用户构成的社交网络层进行了交联社团划分,并且基于LDA模型对用户发布微博构成的博文层进行了文本主题发现。基于交联社团发现进行了博主关系网络分析,实验表明:交联社团用户发表博文分布符合幂律分布,用户活跃度与社团规模呈现正相关,同一社团内用户发表博文主题存在重叠。
【关键词】:复杂网络 交联社团 聚类算法 网络舆情 主题分析
【学位授予单位】:新疆财经大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
- 摘要2-3
- 英文摘要3-7
- 第一章 绪论7-13
- 第一节 研究背景及意义7-8
- 第二节 国内外研究现状8-10
- 一、复杂网络聚类方法研究综述8-9
- 二、网络舆情主题分析研究综述9-10
- 第三节 本文的研究内容10-11
- 第四节 本文的组织结构11-13
- 第二章 复杂网络社团发现方法理论基础13-23
- 第一节 复杂网络与社团结构13-17
- 一、复杂网络相关概念13-14
- 二、社团结构相关概念14-17
- 第二节 复杂网络社团发现主流算法17-21
- 一、图形分割算法17-18
- 二、分裂方法18-19
- 三、凝聚方法19-21
- 第三节 复杂网络交联社团发现算法21-22
- 第四节 本章小结22-23
- 第三章 基于FCM算法的复杂网络交联社团发现23-31
- 第一节 聚类与社团发现23-24
- 第二节 FCM算法理论基础24-26
- 一、模糊聚类算法基础知识24-26
- 二、FCM聚类算法的影响参数及特点26
- 第三节 FCM聚类算法发现交联社团结构26-27
- 一、对FCM聚类算法的改进26-27
- 二、交联社团结构发现的实现步骤27
- 第四节 实验与结果分析27-30
- 一、空手道俱乐部Zachary网络27-29
- 二、美国大学橄榄球联盟Football网络29-30
- 第五节 本章小结30-31
- 第四章 基于LDA模型的文本主题分析31-49
- 第一节 LDA模型基础理论31-37
- 一、概率主题模型31-32
- 二、LDA模型32-36
- 三、LDA模型的参数估计算法36-37
- 第二节 基于模糊聚类方法优化LDA模型37-41
- 一、基于LDA模型的文本聚类37-40
- 二、文本主题分析40-41
- 第三节 实验与结果分析41-48
- 一、实验流程、实验环境和实验语料41-42
- 二、实验设计与结果42-48
- 第四节 本章小结48-49
- 第五章 网络舆情主题分析及实证研究49-64
- 第一节 基于优化FCM算法的微博用户网络交联社团发现49-53
- 一、微博数据的采集与处理49-50
- 二、微博用户网络交联社团发现50-53
- 第二节 基于优化LDA模型的微博文本主题分析53-58
- 一、微博文本数据的采集和处理53-54
- 二、微博博文主题分析54-58
- 第三节 基于交联社团发现的博主关系网络分析58-63
- 第四节 本章小结63-64
- 第六章 总结与展望64-66
- 第一节 本文总结64-65
- 第二节 工作展望65-66
- 参考文献66-70
- 致谢70-71
- 硕士期间发表论文及参与科研项目71
【相似文献】
中国期刊全文数据库 前9条
1 张h;田彦山;;基于减法聚类的聚类上限确定方法[J];固原师专学报;2006年03期
2 王英奇;;支持向量聚类算法的研究与改进[J];湛江师范学院学报;2008年06期
3 叶苗群;;Web客户的核聚类[J];宁波职业技术学院学报;2008年02期
4 陆克中;;ABC-KHM混合聚类算法[J];池州学院学报;2013年03期
5 陈映果;;改进的F-ISODATA聚类算法在ANFIS建模中的应用[J];荆楚理工学院学报;2011年02期
6 张向锋;王致杰;;一种基于免疫聚类算法的数据分类[J];上海电机学院学报;2011年01期
7 周志平;庄金莲;陈佳丽;;半监督聚类在入侵检测中的应用研究[J];武夷学院学报;2013年05期
8 付淇;;基于K-means的最佳聚类数的求解问题研究[J];南昌高专学报;2011年02期
9 ;[J];;年期
中国重要会议论文全文数据库 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
2 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
6 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
7 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 魏建东;K-means初始化算法研究[D];南京理工大学;2015年
2 张依;基于MapReduce的k-means聚类算法并行化研究[D];中央民族大学;2015年
3 刘婵;蚁群与K均值聚类算法融合研究及其在用户分群中的应用[D];西南科技大学;2015年
4 朱琪;基于减法聚类的混合算法研究[D];湖南科技大学;2015年
5 韩伟森;聚类集成研究与应用[D];贵州大学;2015年
6 谭浩;K-Means算法改进及其在森林健康评价中的应用[D];中南林业科技大学;2015年
7 严巍;以KPCA为核心的FCM算法改进[D];成都理工大学;2015年
8 汪娟;基于权重设计的聚类集成算法研究[D];重庆大学;2015年
9 牛品菽;基于图模型的高效聚类算法研究[D];北京交通大学;2016年
10 蔡洪山;大数据分析中的聚类算法研究[D];安徽理工大学;2016年
本文关键词:复杂网络聚类方法及其在舆情主题分析中的应用研究,由笔耕文化传播整理发布。
本文编号:435741
本文链接:https://www.wllwen.com/shekelunwen/shgj/435741.html