基于VOLDA主题模型和ESG预测模型的话题热度预测研究
发布时间:2021-11-27 19:28
随着互联网的普及,web2.0社交媒体对人们的日常生活产生了巨大的影响,同时生成了海量的网络舆情文本。这些舆情文本如论坛帖子,实时反映当前网络舆情的热点话题,具有丰富的话题内容信息。因此,如何对舆情文本进行在线主题建模,实时挖掘出话题信息并进行话题热度计算与预测具有重要的研究意义。然而现有研究对话题的热度计算中忽略了舆情文本的主题组成情况并且现有的预测模型对话题热度的预测能力较差,因此本文提出了一种基于VOLDA主题模型和ESG预测模型的话题热度预测方法。本文首先研究了在线主题模型与时间序列预测方法的相关理论,将其作为本文的研究基础。其次在OLDA模型中引入主题相似度矩阵来去除非相关时间片主题影响,构建了可变在线LDA模型(Variable Online-LDA,简称VOLDA)。此外考虑到时间序列一般由多个时间序列模块组成,本文提出了ESG(EEMD-SVM-GMDH)预测模型用于时间序列分解预测。之后,本文设计了基于上述两个模型的话题热度预测方法,提出了结合主题模型和热度指标的话题热度计算方法,利用VOLDA模型自动获取话题及其热度时间序列,并利用ESG模型对其进行预测。最后,本文...
【文章来源】:南京航空航天大学江苏省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
论坛数据存储方式
表 4.1(续)时间窗口的大小 3初始演化权重矩阵 [0.3,0.3,0.4]文档热度点击系数 1文档热度评论系数 1迭代次数 I 1000主题数量 K 50初始 1初始 0.01时间片长额ts 12 小时相似度阈值 s 0.3下图 4.3 为时间窗口的大小 3且初始演化权重矩阵 [0.3,0.3,0.4]时实验结果。由于 VOLDA 模型,VOLDA-T 模型和 OLDA 模型的前三个时间窗口都采用相同的建模超参数,因此本文从第 3 个时间片开始进行困惑度比较。
由于当时间窗口为5的时候,前5个时间片采用原始LDA模型进行训练,实际基于VOL型的主题建模在第 6 个时间片开始,因此在进行困惑度的比较的时候忽略前 5 个时间惑度,仅比较后续时间片的困惑度。从上图中可以看出,实际上各个时间窗口的困惑度接近,反映了相同的困惑度变化趋势。其中,时间窗口为 2 时,在各个时间片的困惑度,时间窗口为 4 和 5 的时候困惑度都较大,因此在本研究语料中,时间窗口取值为 2 ,VOLDA 模型的建模效果最为理想,因此后续实验都是在时间窗口大小为 2 的 VOLD的基础上进行的。.5 话题热度预测实验及结果分析.5.1 实验基本思路本文提出了基于 VOLDA 主题模型和 ESG 预测模型进行话题热度预测的方法。进行度预测主要依靠基于 VOLDA 模型自动获取话题热度时间序列以及 ESG 预测模型进行度时间序列的预测,因此接下来主要对这两个方面进行实验验证本文提出的话题热度图 4.4 不同时间窗口下困惑度对比
【参考文献】:
期刊论文
[1]基于相关度的局部潜在语义分析算法研究[J]. 吴勇,刘钰峰. 控制工程. 2017(08)
[2]融合PLSA和随机游走模型的自动图像标注[J]. 田东平. 小型微型计算机系统. 2017(08)
[3]面向大数据的网络舆情热度动态预测模型研究[J]. 兰月新,刘冰月,张鹏,夏一雪,李昊青. 情报杂志. 2017(06)
[4]一种基于改进PLSA和案例推理的行为识别算法[J]. 涂宏斌,岳艳艳,周新建,罗锟. 计算机科学. 2017(06)
[5]融合相关性与多样性的学术论文推荐方法研究[J]. 李响,谭静. 情报理论与实践. 2017(06)
[6]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[7]基于OLDA的热点话题演化跟踪模型[J]. 陈兴蜀,高悦,江浩,杜敏,王海舟,何建云. 华南理工大学学报(自然科学版). 2016(05)
[8]基于PLSA主题模型的多标记文本分类[J]. 蒋铭初,潘志松,尤峻. 数据采集与处理. 2016(03)
[9]基于自激点过程的网络热点话题传播模型[J]. 韩忠明,张梦,谭旭升,段大高,司慧琳. 计算机学报. 2016(04)
[10]基于小波分析与人工神经网络的网络舆情预测[J]. 舒予,张黎俐. 情报科学. 2016(04)
本文编号:3522908
【文章来源】:南京航空航天大学江苏省 211工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
论坛数据存储方式
表 4.1(续)时间窗口的大小 3初始演化权重矩阵 [0.3,0.3,0.4]文档热度点击系数 1文档热度评论系数 1迭代次数 I 1000主题数量 K 50初始 1初始 0.01时间片长额ts 12 小时相似度阈值 s 0.3下图 4.3 为时间窗口的大小 3且初始演化权重矩阵 [0.3,0.3,0.4]时实验结果。由于 VOLDA 模型,VOLDA-T 模型和 OLDA 模型的前三个时间窗口都采用相同的建模超参数,因此本文从第 3 个时间片开始进行困惑度比较。
由于当时间窗口为5的时候,前5个时间片采用原始LDA模型进行训练,实际基于VOL型的主题建模在第 6 个时间片开始,因此在进行困惑度的比较的时候忽略前 5 个时间惑度,仅比较后续时间片的困惑度。从上图中可以看出,实际上各个时间窗口的困惑度接近,反映了相同的困惑度变化趋势。其中,时间窗口为 2 时,在各个时间片的困惑度,时间窗口为 4 和 5 的时候困惑度都较大,因此在本研究语料中,时间窗口取值为 2 ,VOLDA 模型的建模效果最为理想,因此后续实验都是在时间窗口大小为 2 的 VOLD的基础上进行的。.5 话题热度预测实验及结果分析.5.1 实验基本思路本文提出了基于 VOLDA 主题模型和 ESG 预测模型进行话题热度预测的方法。进行度预测主要依靠基于 VOLDA 模型自动获取话题热度时间序列以及 ESG 预测模型进行度时间序列的预测,因此接下来主要对这两个方面进行实验验证本文提出的话题热度图 4.4 不同时间窗口下困惑度对比
【参考文献】:
期刊论文
[1]基于相关度的局部潜在语义分析算法研究[J]. 吴勇,刘钰峰. 控制工程. 2017(08)
[2]融合PLSA和随机游走模型的自动图像标注[J]. 田东平. 小型微型计算机系统. 2017(08)
[3]面向大数据的网络舆情热度动态预测模型研究[J]. 兰月新,刘冰月,张鹏,夏一雪,李昊青. 情报杂志. 2017(06)
[4]一种基于改进PLSA和案例推理的行为识别算法[J]. 涂宏斌,岳艳艳,周新建,罗锟. 计算机科学. 2017(06)
[5]融合相关性与多样性的学术论文推荐方法研究[J]. 李响,谭静. 情报理论与实践. 2017(06)
[6]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[7]基于OLDA的热点话题演化跟踪模型[J]. 陈兴蜀,高悦,江浩,杜敏,王海舟,何建云. 华南理工大学学报(自然科学版). 2016(05)
[8]基于PLSA主题模型的多标记文本分类[J]. 蒋铭初,潘志松,尤峻. 数据采集与处理. 2016(03)
[9]基于自激点过程的网络热点话题传播模型[J]. 韩忠明,张梦,谭旭升,段大高,司慧琳. 计算机学报. 2016(04)
[10]基于小波分析与人工神经网络的网络舆情预测[J]. 舒予,张黎俐. 情报科学. 2016(04)
本文编号:3522908
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3522908.html