基于社会网络分析的网络舆情主题事件演化研究
发布时间:2021-01-31 06:01
随着互联网技术的发展,网络空间成为民众对某一事件持有观点、态度的重要表达场所,从而形成网络舆情。网络舆情借助互联网具有信息实时性、受众普遍性、超越时空性和传播快速性等特征。网络舆情是对现实世界舆情事件的反映,利用其独有的特性,使得舆情事件快速传播。这些新特点对政府治理公共舆情事件的时效性和准确性提出了新的挑战,因此加强对网络舆情,尤其是网络舆情演化的研究具有重要的价值和现实意义。现有对网络舆情演化的研究思路主要是基于两个视角:一是从网络舆情参与用户的角度,对其参与舆情事件的数量及特点划分阶段,或根据舆情传播方式,借助模型仿真研究舆情用户变化;另一种是从舆情文本的角度,对其进行情感分析、主题发现及主题热度演变等的研究。但单独从参与用户或舆情文本角度不能系统化地揭示网络舆情主题事件的演化活动,因此本文采用社会网络分析法,综合上述两种研究思路,对网络舆情参与用户与文本内容实施整合研究,利用文本挖掘技术与系统仿真技术系统研究网络舆情主题事件的演化活动。本文首先介绍了网络舆情及网络舆情演化、社会网络、短文本挖掘的国内外研究现状;其次系统梳理了网络舆情、社会网络分析法、文本挖掘与系统仿真的理论知识...
【文章来源】:福州大学福建省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图1-1社会网络文献时间分布??,,
类自然语言描述的文本转化为机器可以识别的信息,需要把文涉及到文本表示技术。当前常用的文本表示模型有:向量空间卷积神经网络和LDA?(潜在狄利克雷分布)主题模型等。本掘中应用较多的LDA主题模型。??模型是把文本看成由词汇组成,文本隐藏着若干主题,主题是这样就可以把文本由词项分布的高维空间转化为主题分布的2-1所示,更为清晰快速的挖掘文档内容。主题模型主要利用来源于隐性语义索引(Latent?Semantic?Indexing,LSI)?[71],Hof上提出了概率隐性语义索引(probabilistic?Latent?Semantic?Ind此后,Blei?等[73]在?PLSA?基础上提出?LDA?(Latent?Dirichlet?Alloc,即引入Dirichlet先验分布得到的文档-主题-词项的三层贝叶图模型表示如图2-2所示:??P?(词语|文档)=2主题P(词语|主题)*P(主题|文档)??文档?主题??
图2-2?LDA图模型表示??,M表示文档数量,>^第111篇文档的单词个数,K表示主题所有单词的个数。wm,n表示第m篇文档中第n个单词,zm,n表示n个单词对应的主题;0m表示第m篇文档中所有主题的概率中主题为k里的所有单词的概率分布;ot和P是Dirichlet分布生成0和〇这两个参数的参数。矩形为相应变量重复采样次〇k,对应遍历所有主题的单词概率分布,从M篇文档中选择中所有单词Nm找到其对应主题zm,n,然后遍历完所有M篇文档。变量,即wm,n文档中单词的分布是己知的,空心圆为待估计的主题个数K的确定学术界暂时没有统一的标准,由于面对的,因此需要不断实验验证得到最佳主题数。其中一种方法是xity)确定,它表示一篇文档d属于某一主题p的不确定程度,B主题数目曲线来确定最优主题数目;另外一种是基于密度的自型选择方法,首先选取初始K值,得到初始模型,计算各topic
【参考文献】:
期刊论文
[1]基于闭频繁项集短文本聚类[J]. 张少磊,王忠. 计算机应用. 2016(S2)
[2]基于社会网络分析的微博社区网络结构及传播特性研究[J]. 杜洪涛,孟庆国,王君泽. 情报学报. 2016 (08)
[3]基于Hadoop的微博舆情监控系统模型研究[J]. 杨爱东,刘东苏. 现代图书情报技术. 2016(05)
[4]基于文档对象模型与行块分布算法的网页信息抽取[J]. 高庆宁,吴鹏,张晶晶. 情报理论与实践. 2016(04)
[5]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平. 计算机研究与发展. 2015(09)
[6]突发事件网络舆情中网民群体行为演化的Agent建模与仿真研究[J]. 吴鹏,杨爽,张晶晶,高庆宁. 现代图书情报技术. 2015(Z1)
[7]融合BTM主题特征的短文本分类方法[J]. 郑诚,吴文岫,代宁. 计算机工程与应用. 2016(13)
[8]时空分异视角下非常规突发事件网络舆情演化研究——以“上海12.31踩踏事件”为例[J]. 刘国巍,程国辉,姜金贵. 情报杂志. 2015(06)
[9]基于影响模型的网络舆情演化与传播仿真研究[J]. 朱毅华,张超群. 情报杂志. 2015(02)
[10]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞. 计算机工程与应用. 2015(04)
硕士论文
[1]基于频繁词集词共现网络的短文本聚类方法[D]. 李伟.北京交通大学 2016
[2]基于社会网络分析的Web社区发现[D]. 舒昕.兰州交通大学 2013
本文编号:3010331
【文章来源】:福州大学福建省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图1-1社会网络文献时间分布??,,
类自然语言描述的文本转化为机器可以识别的信息,需要把文涉及到文本表示技术。当前常用的文本表示模型有:向量空间卷积神经网络和LDA?(潜在狄利克雷分布)主题模型等。本掘中应用较多的LDA主题模型。??模型是把文本看成由词汇组成,文本隐藏着若干主题,主题是这样就可以把文本由词项分布的高维空间转化为主题分布的2-1所示,更为清晰快速的挖掘文档内容。主题模型主要利用来源于隐性语义索引(Latent?Semantic?Indexing,LSI)?[71],Hof上提出了概率隐性语义索引(probabilistic?Latent?Semantic?Ind此后,Blei?等[73]在?PLSA?基础上提出?LDA?(Latent?Dirichlet?Alloc,即引入Dirichlet先验分布得到的文档-主题-词项的三层贝叶图模型表示如图2-2所示:??P?(词语|文档)=2主题P(词语|主题)*P(主题|文档)??文档?主题??
图2-2?LDA图模型表示??,M表示文档数量,>^第111篇文档的单词个数,K表示主题所有单词的个数。wm,n表示第m篇文档中第n个单词,zm,n表示n个单词对应的主题;0m表示第m篇文档中所有主题的概率中主题为k里的所有单词的概率分布;ot和P是Dirichlet分布生成0和〇这两个参数的参数。矩形为相应变量重复采样次〇k,对应遍历所有主题的单词概率分布,从M篇文档中选择中所有单词Nm找到其对应主题zm,n,然后遍历完所有M篇文档。变量,即wm,n文档中单词的分布是己知的,空心圆为待估计的主题个数K的确定学术界暂时没有统一的标准,由于面对的,因此需要不断实验验证得到最佳主题数。其中一种方法是xity)确定,它表示一篇文档d属于某一主题p的不确定程度,B主题数目曲线来确定最优主题数目;另外一种是基于密度的自型选择方法,首先选取初始K值,得到初始模型,计算各topic
【参考文献】:
期刊论文
[1]基于闭频繁项集短文本聚类[J]. 张少磊,王忠. 计算机应用. 2016(S2)
[2]基于社会网络分析的微博社区网络结构及传播特性研究[J]. 杜洪涛,孟庆国,王君泽. 情报学报. 2016 (08)
[3]基于Hadoop的微博舆情监控系统模型研究[J]. 杨爱东,刘东苏. 现代图书情报技术. 2016(05)
[4]基于文档对象模型与行块分布算法的网页信息抽取[J]. 高庆宁,吴鹏,张晶晶. 情报理论与实践. 2016(04)
[5]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平. 计算机研究与发展. 2015(09)
[6]突发事件网络舆情中网民群体行为演化的Agent建模与仿真研究[J]. 吴鹏,杨爽,张晶晶,高庆宁. 现代图书情报技术. 2015(Z1)
[7]融合BTM主题特征的短文本分类方法[J]. 郑诚,吴文岫,代宁. 计算机工程与应用. 2016(13)
[8]时空分异视角下非常规突发事件网络舆情演化研究——以“上海12.31踩踏事件”为例[J]. 刘国巍,程国辉,姜金贵. 情报杂志. 2015(06)
[9]基于影响模型的网络舆情演化与传播仿真研究[J]. 朱毅华,张超群. 情报杂志. 2015(02)
[10]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞. 计算机工程与应用. 2015(04)
硕士论文
[1]基于频繁词集词共现网络的短文本聚类方法[D]. 李伟.北京交通大学 2016
[2]基于社会网络分析的Web社区发现[D]. 舒昕.兰州交通大学 2013
本文编号:3010331
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3010331.html