面向时间序列的微博话题演化模型研究
发布时间:2021-07-20 13:31
互联网已经渗透到国民生活的各个方面,新型媒体也逐渐成为信息发布与传播的主要平台,网络舆情已成为整个社会舆情中的重要组成部分。而正因为网络具有虚拟性和开放性,使得网络舆情的传播存在反复波动的特点,特别是热点事件在长期的演化过程中,出现多个高峰,其内容焦点很可能随时间的变化发生了动态迁移,出现阶段性渐变的特点。及时发现网络热点话题焦点的迁移,并动态跟踪话题的演变趋势,可以提供更完整的事件动态演化轨迹,帮助网民更直观清晰地掌握新闻事件的来龙去脉,对于分析网络舆情态势具有重要意义,也是网络舆情分析的重要内容。论文首先分析了话题演化的意义,对目前话题演化模型现状进行了深入的探讨与研究;然后根据本文要研究的微博文本数据的特点,提出本文的话题演化框架。话题事件在话题发展的每一阶段都有不同的话题焦点,所以可以通过时间片来切分话题,通过分析不同时间片话题焦点关注度和内容变化了解话题的演化规律。论文分析了焦点特征词与噪声词的分布特点,构造焦点词提取公式,建立焦点特征词集合;使用Skip-gram模型在文本集上训练词向量模型并保存,将每一时间片的微博文本输入BTM得到候选主题,直接在BTM主题维上结合焦点特...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
文档的向量空间表示模型
图 2.2 LDA 隐含主题拓扑结构示意图随着近年来社交媒体的出现,主题模型被用于社交媒体内容分析的各种任务中。然而,由于没有针对短文本的特定的主题模型,一些研究者直接采用传统的主题模型进行分析,或者在传统的模型上进行改进用于短文本建模。还有一些研究者尝试着将段文文融合成长文本,然后用传统的模型对其建模。BTM 主题模型[39]主要是针对短文本进行建模的主题模型,与传统主题模型构建文档主题层模型的方法不同,BTM 模型通过将文档转化为词组,对文档预处理后,会出现任意的两个词组,例如“高校电脑中病毒”,可以组成“高校电脑”、“高校中”、“高校病毒”、“电脑中”、“电脑病毒”、“中病毒”等 6 个词对;通过直接对整个语料库中词对的建模学习得到文档的主题分布,在克服短文本稀疏问题的同时考虑了词与词之间的语义联系。该模型在主题学习的过程中不需要借助任何外部资源,这也是目前对短文本建模的一种通用的主题模型。BTM 模型的主要思想是对整个语料库中抽取的词对进行建模学习,用于解决单个文档的稀疏性问题。具体来看,其中每个词对都是从一个特定的主题中独立抽取出
图 2.3 BTM 模型骤,词对 (,)ijb ww的联合分布为:iZjZZjZZiPbPwzPwz||( ) (|)(|) iZjZi jZZPB||(,)( ) 直接对词对模式进行建模,而不是单个词语。不难发语更能揭示主题,从而提高主题的学习。而且,词对掘潜在主题。向量向量表示词语的一种表示形式。one-hot 编码是一种
【参考文献】:
期刊论文
[1]基于词向量的微博话题发现方法[J]. 李帅彬,李亚星,冯旭鹏,刘利军,黄青松. 计算机应用与软件. 2017(12)
[2]基于微博文本的词对主题演化模型[J]. 史庆伟,刘雨诗,张丰田. 计算机应用. 2017(05)
[3]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[4]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
[5]基于DTM的国内外情报学研究主题热度演化对比研究[J]. 齐亚双,祝娜,翟羽佳. 图书情报工作. 2016(16)
[6]面向社交媒体文本的话题检测与追踪技术研究综述[J]. 彭敏,官宸宇,朱佳晖,谢倩倩,黄佳佳,黄济民,杨绍雄,高望,应称. 武汉大学学报(理学版). 2016(03)
[7]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
[8]基于DTM-LPA的突发事件话题演化方法研究——以H7N9微博为例[J]. 吴小兰,章成志. 图书与情报. 2015(03)
[9]基于词向量的微博事件追踪方法[J]. 张佳明,席耀一,王波,唐浩浩,李天彩. 计算机工程与应用. 2016(17)
[10]基于Wikipedia的短文本语义相关度计算方法[J]. 王荣波,谌志群,周建政,李治,高飞. 计算机应用与软件. 2015(01)
博士论文
[1]面向热点新闻话题的文本处理技术研究[D]. 方莹.北京理工大学 2015
[2]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
[3]中文新闻话题动态演化及其关键技术研究[D]. 赵旭剑.中国科学技术大学 2012
硕士论文
[1]基于BTM的短文本聚类[D]. 汤秋莲.安徽大学 2014
本文编号:3292918
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
文档的向量空间表示模型
图 2.2 LDA 隐含主题拓扑结构示意图随着近年来社交媒体的出现,主题模型被用于社交媒体内容分析的各种任务中。然而,由于没有针对短文本的特定的主题模型,一些研究者直接采用传统的主题模型进行分析,或者在传统的模型上进行改进用于短文本建模。还有一些研究者尝试着将段文文融合成长文本,然后用传统的模型对其建模。BTM 主题模型[39]主要是针对短文本进行建模的主题模型,与传统主题模型构建文档主题层模型的方法不同,BTM 模型通过将文档转化为词组,对文档预处理后,会出现任意的两个词组,例如“高校电脑中病毒”,可以组成“高校电脑”、“高校中”、“高校病毒”、“电脑中”、“电脑病毒”、“中病毒”等 6 个词对;通过直接对整个语料库中词对的建模学习得到文档的主题分布,在克服短文本稀疏问题的同时考虑了词与词之间的语义联系。该模型在主题学习的过程中不需要借助任何外部资源,这也是目前对短文本建模的一种通用的主题模型。BTM 模型的主要思想是对整个语料库中抽取的词对进行建模学习,用于解决单个文档的稀疏性问题。具体来看,其中每个词对都是从一个特定的主题中独立抽取出
图 2.3 BTM 模型骤,词对 (,)ijb ww的联合分布为:iZjZZjZZiPbPwzPwz||( ) (|)(|) iZjZi jZZPB||(,)( ) 直接对词对模式进行建模,而不是单个词语。不难发语更能揭示主题,从而提高主题的学习。而且,词对掘潜在主题。向量向量表示词语的一种表示形式。one-hot 编码是一种
【参考文献】:
期刊论文
[1]基于词向量的微博话题发现方法[J]. 李帅彬,李亚星,冯旭鹏,刘利军,黄青松. 计算机应用与软件. 2017(12)
[2]基于微博文本的词对主题演化模型[J]. 史庆伟,刘雨诗,张丰田. 计算机应用. 2017(05)
[3]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[4]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
[5]基于DTM的国内外情报学研究主题热度演化对比研究[J]. 齐亚双,祝娜,翟羽佳. 图书情报工作. 2016(16)
[6]面向社交媒体文本的话题检测与追踪技术研究综述[J]. 彭敏,官宸宇,朱佳晖,谢倩倩,黄佳佳,黄济民,杨绍雄,高望,应称. 武汉大学学报(理学版). 2016(03)
[7]短文本理解研究[J]. 王仲远,程健鹏,王海勋,文继荣. 计算机研究与发展. 2016(02)
[8]基于DTM-LPA的突发事件话题演化方法研究——以H7N9微博为例[J]. 吴小兰,章成志. 图书与情报. 2015(03)
[9]基于词向量的微博事件追踪方法[J]. 张佳明,席耀一,王波,唐浩浩,李天彩. 计算机工程与应用. 2016(17)
[10]基于Wikipedia的短文本语义相关度计算方法[J]. 王荣波,谌志群,周建政,李治,高飞. 计算机应用与软件. 2015(01)
博士论文
[1]面向热点新闻话题的文本处理技术研究[D]. 方莹.北京理工大学 2015
[2]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
[3]中文新闻话题动态演化及其关键技术研究[D]. 赵旭剑.中国科学技术大学 2012
硕士论文
[1]基于BTM的短文本聚类[D]. 汤秋莲.安徽大学 2014
本文编号:3292918
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3292918.html