基于主题模型的事件演化分析系统设计与实现

发布时间:2021-06-08 07:36
  随着互联网及多媒体技术的不断发展,新闻媒体成为人们了解事件发展的重要工具,新闻作为事件的载体,具有真实性、时效性、开放性、变动性等特征,如何从媒体发布的新闻中挖掘出事件发展各阶段信息,准确分析事件演化脉络及演化热度指数,有利于人们全面了解新闻事件,且有助于政府及新闻媒体引导和控制新闻事件的发展方向。目前,对于事件演化分析的研究主要存在以下问题:(1)新闻事件表达不全面;(2)不能有效分析事件演化方向;(3)缺少完整的事件演化分析可视化系统。本文以新华网新闻为研究数据,以新闻事件的演化脉络和演化热度指数为研究内容,在总结和分析国内外现状、梳理相关原理技术的基础上,首先改进文本表达方式,利用特征向量、语义向量、主题向量多角度表达新闻文本,其次基于改进的Single-Pass聚类算法实现新事件检测、事件话题类别标注,并通过隐式狄利克雷分布主题模型分析事件演化过程,同时,根据研究内容搭建事件演化分析系统。具体研究内容如下:(1)提出了多向量融合的文本量化表达方式。基于TF-IDF特征选取算法生成特征向量,利用主题模型生成的文档-主题矩阵作为主题向量,针对词嵌入模型生成的词向量稀疏性问题,引入S... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:86 页

【学位级别】:硕士

【部分图文】:

基于主题模型的事件演化分析系统设计与实现


事件演化分析流程图

主题,词语,随机选择,儿童


电子科技大学硕士学位论文8个主题包含多个单词。文档的构成过程,首先挑选一个主题,再从主题中挑选一个词,如此重复多次,便构成了完整的文档。可以理解为,文档的主题决定了文档和语料库的含义,主题模型的任务就是从文档中揭示出这些主题。LDA主题模型的提出者Blei等人[28]给出一个简单的例子,事先给定几个主题,通过学习训练,获取每个主题对应的词语。如下图2-1所示:图2-1主题对应的词语以随机概率挑寻艺术、预算、儿童、教育”中某一主题,然后随机选择该主题下对应的词语,反复执行两次选取过程,最终生成如下图2-2所示的文章(取文章部分展示,不同主题单词对应不同颜色):图2-2主题词生成的文章

主题词,主题


电子科技大学硕士学位论文8个主题包含多个单词。文档的构成过程,首先挑选一个主题,再从主题中挑选一个词,如此重复多次,便构成了完整的文档。可以理解为,文档的主题决定了文档和语料库的含义,主题模型的任务就是从文档中揭示出这些主题。LDA主题模型的提出者Blei等人[28]给出一个简单的例子,事先给定几个主题,通过学习训练,获取每个主题对应的词语。如下图2-1所示:图2-1主题对应的词语以随机概率挑寻艺术、预算、儿童、教育”中某一主题,然后随机选择该主题下对应的词语,反复执行两次选取过程,最终生成如下图2-2所示的文章(取文章部分展示,不同主题单词对应不同颜色):图2-2主题词生成的文章

【参考文献】:
期刊论文
[1]一种基于社交事件关联的故事脉络生成方法[J]. 李莹莹,马帅,蒋浩谊,刘喆,胡春明,李雄.  计算机研究与发展. 2018(09)
[2]面向动态主题数的话题演化分析[J]. 方莹,黄河燕,辛欣,魏骁驰,庄琨.  中文信息学报. 2014(03)
[3]一种新闻事件演化建模方法[J]. 张辉,李国辉,孙博良,贾立.  国防科技大学学报. 2013(04)
[4]基于增量型聚类的自动话题检测研究[J]. 张小明,李舟军,巢文涵.  软件学报. 2012(06)
[5]基于多向量和实体模糊匹配的话题关联识别[J]. 张晓艳,王挺,陈火旺.  中文信息学报. 2008(01)
[6]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生.  中文信息学报. 2007(06)



本文编号:3217970

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3217970.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3147***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com