微博热点话题预判技术研究
发布时间:2021-02-27 14:40
微博热点话题预判是指从海量的微博文本中识别出话题信息,并基于用户关注的广泛性对话题热度进行评估,基于评估的历史结果对话题成为热点的可能性进行判定。微博热点话题预判技术的研究对于商业情报分析、微博舆情预警、引导和管控具有一定的实用价值。本文结合微博话题多元信息表示模型设计了微博热点话题预判框架,并针对微博话题建模、话题热度评估等内容进行了细致深入的研究,全文主要工作如下:1.在微博话题多元信息表示方面,针对现有方法对结构化信息描述能力不足的问题,提出了层次化的话题多元信息表示模型,用以表示话题丰富的多元信息;借鉴“微博生命周期”理论,设计了基于“微博关注度”的话题多元信息动态更新机制;基于该模型对微博话题的一般特性进行了分析。2.在微博话题建模方面,本文结合微博数据的结构化特性设计了动态微博文本生成模型MB-dLDA用于微博话题增量识别。该模型对表征微博语义关联的转发关系统一建模,并结合话题的时序关联信息用于模型训练;通过该模型对微博隐主题信息进行挖掘,并对话题进行时序关联;实验表明:该模型能较好的适应微博数据特性,效果比较理想。3.在话题热度评估方面,本文基于微博话题的一般特性,结合话...
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
微博示例从中可以发现微博数据的一些特性:微博文本比较短小,并且除了正文文本内容外,
第三章 话题多元信息表示模型第 17 页图8 话题多元关系的邻接矩阵示例图3.2 模型动态更新机制3.2.1 话题多元信息的更新本文上一节介绍了微博多元信息表示模型的相关描述,在讨论微博信息层时涉及到了时序的微博集合 , 1,2,...,tM t T及其关系集合 , 1, 2,...,tMR t T,其中tMR 包含了前 t 个时间片的微博关系的历史数据。随着时间的不断积累,与话题相关的最新微博及其转发不断加入,基于对微博数据时效性的考虑,应当对历史数据进行适当的约减,着重对当前微博数据的分析。对模型进行实时更新就是通过微博发布的时间间隔对微博信息层相关数据进行约减的过程。本文借鉴微博话题生命周期理论[35],提出了基于微博关注度的话题多元信息表示模型的更新策略。定义微博的关注度 Att(d) 为微博转发量 Rep(d):Att ( d ) Rep( d)(1)考虑微博关注度的时间积累过程,以微博发布所在时间片为第 1 个时间片,定义 A tt ( d)为微博关注度增量
如图 11 所示,该图是通过对微博转发关系进行提取得到的,包含了与特定微博存在直接或间接转发关系的所有微博,图中节点代表微博,边代表了微博的转发关系。图11 微博转发树实例图由图可知,微博转发树中存在较为明显的转发层次,微博的转发关系集合可以看做是多个转发树的集合,每一个树代表了一条微博的多层转发。针对微博转发树本文设计了两个转发关系分析指标:转发深度和转发广度。转发深度:微博转发树中,定义某一棵转发树的转发深度为该树的层数。话题相关的所有转发树的最大转发深度值为该话题的转发深度。转发广度:微博转发树中,定义某一棵转发树的转发广度为该树中孩子最多的微博节点的孩子数。话题相关的所有转发树的最大转发广度值为话题的转发广度。转发网络的深度和广度是对话题转发范围的一种度量,不同的热度的话题的转发深度
【参考文献】:
期刊论文
[1]面向热点话题时间序列的有效聚类算法研究[J]. 韩忠明,陈妮,乐嘉锦,段大高,孙践知. 计算机学报. 2012(11)
[2]微博客中转发行为的预测研究[J]. 张旸,路荣,杨青. 中文信息学报. 2012(04)
[3]基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 路荣,项亮,刘明荣,杨青. 模式识别与人工智能. 2012(03)
[4]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[5]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[6]一种改进的LDA主题模型[J]. 张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官. 北京交通大学学报. 2010(02)
[7]周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J]. 税仪冬,瞿有利,黄厚宽. 北京交通大学学报. 2009(05)
博士论文
[1]社交网络服务中信息传播模式与舆论演进过程研究[D]. 张彦超.北京交通大学 2012
[2]社会网络中节点角色以及群体演化研究[D]. 朱天.北京邮电大学 2011
[3]新闻话题表示模型和关联追踪技术研究[D]. 张晓艳.国防科学技术大学 2010
[4]网络安全态势评估与趋势感知的分析研究[D]. 萧海东.上海交通大学 2007
硕士论文
[1]结合话题的社会网络社团发现技术研究[D]. 李明涛.解放军信息工程大学 2012
[2]中文微博客热点话题检测与跟踪技术研究[D]. 孙胜平.北京交通大学 2011
[3]邮件通联网络变化检测关键技术研究[D]. 刘楝.解放军信息工程大学 2011
[4]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
[5]基于内容分析的Blog话题检测方法研究[D]. 何金艳.哈尔滨工业大学 2010
[6]话题检测研究[D]. 乐可欣.北京交通大学 2009
[7]话题追踪与演化分析技术研究[D]. 吕楠.解放军信息工程大学 2009
本文编号:3054379
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
微博示例从中可以发现微博数据的一些特性:微博文本比较短小,并且除了正文文本内容外,
第三章 话题多元信息表示模型第 17 页图8 话题多元关系的邻接矩阵示例图3.2 模型动态更新机制3.2.1 话题多元信息的更新本文上一节介绍了微博多元信息表示模型的相关描述,在讨论微博信息层时涉及到了时序的微博集合 , 1,2,...,tM t T及其关系集合 , 1, 2,...,tMR t T,其中tMR 包含了前 t 个时间片的微博关系的历史数据。随着时间的不断积累,与话题相关的最新微博及其转发不断加入,基于对微博数据时效性的考虑,应当对历史数据进行适当的约减,着重对当前微博数据的分析。对模型进行实时更新就是通过微博发布的时间间隔对微博信息层相关数据进行约减的过程。本文借鉴微博话题生命周期理论[35],提出了基于微博关注度的话题多元信息表示模型的更新策略。定义微博的关注度 Att(d) 为微博转发量 Rep(d):Att ( d ) Rep( d)(1)考虑微博关注度的时间积累过程,以微博发布所在时间片为第 1 个时间片,定义 A tt ( d)为微博关注度增量
如图 11 所示,该图是通过对微博转发关系进行提取得到的,包含了与特定微博存在直接或间接转发关系的所有微博,图中节点代表微博,边代表了微博的转发关系。图11 微博转发树实例图由图可知,微博转发树中存在较为明显的转发层次,微博的转发关系集合可以看做是多个转发树的集合,每一个树代表了一条微博的多层转发。针对微博转发树本文设计了两个转发关系分析指标:转发深度和转发广度。转发深度:微博转发树中,定义某一棵转发树的转发深度为该树的层数。话题相关的所有转发树的最大转发深度值为该话题的转发深度。转发广度:微博转发树中,定义某一棵转发树的转发广度为该树中孩子最多的微博节点的孩子数。话题相关的所有转发树的最大转发广度值为话题的转发广度。转发网络的深度和广度是对话题转发范围的一种度量,不同的热度的话题的转发深度
【参考文献】:
期刊论文
[1]面向热点话题时间序列的有效聚类算法研究[J]. 韩忠明,陈妮,乐嘉锦,段大高,孙践知. 计算机学报. 2012(11)
[2]微博客中转发行为的预测研究[J]. 张旸,路荣,杨青. 中文信息学报. 2012(04)
[3]基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 路荣,项亮,刘明荣,杨青. 模式识别与人工智能. 2012(03)
[4]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[5]自然语言处理中主题模型的发展[J]. 徐戈,王厚峰. 计算机学报. 2011(08)
[6]一种改进的LDA主题模型[J]. 张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官. 北京交通大学学报. 2010(02)
[7]周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J]. 税仪冬,瞿有利,黄厚宽. 北京交通大学学报. 2009(05)
博士论文
[1]社交网络服务中信息传播模式与舆论演进过程研究[D]. 张彦超.北京交通大学 2012
[2]社会网络中节点角色以及群体演化研究[D]. 朱天.北京邮电大学 2011
[3]新闻话题表示模型和关联追踪技术研究[D]. 张晓艳.国防科学技术大学 2010
[4]网络安全态势评估与趋势感知的分析研究[D]. 萧海东.上海交通大学 2007
硕士论文
[1]结合话题的社会网络社团发现技术研究[D]. 李明涛.解放军信息工程大学 2012
[2]中文微博客热点话题检测与跟踪技术研究[D]. 孙胜平.北京交通大学 2011
[3]邮件通联网络变化检测关键技术研究[D]. 刘楝.解放军信息工程大学 2011
[4]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
[5]基于内容分析的Blog话题检测方法研究[D]. 何金艳.哈尔滨工业大学 2010
[6]话题检测研究[D]. 乐可欣.北京交通大学 2009
[7]话题追踪与演化分析技术研究[D]. 吕楠.解放军信息工程大学 2009
本文编号:3054379
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3054379.html