基于主题模型的突发话题检测与追踪方法研究

发布时间:2022-12-04 15:04
  近年来,随着Web2.0社交网络的兴起,微博凭借其简单方便等突出的优点迅速普及,已成为人们发布和接收信息的重要方式,同时也为人们共享信息提供了重要的公共平台。微博每时每刻都在产生数以亿计的文本信息流,而这些海量的文本流中蕴含着丰富的潜在知识。在微博中,用户可以浏览感兴趣的话题并且阅读讨论与该话题有关的文本内容。当人们关心的话题发生时,与之相关的微博数量就会在短时间内呈现迸发激增的状态。微博的突发话题即为在短时间内对用户以及社会产生强烈影响的新兴网络话题。因此,如果能够在海量的微博数据中及时检测出突发话题,了解人们对突发话题的各种观点和感受,既可以应用于政府和其他相关部门对互联网舆情的控制,也可以帮助企业及时制定服务于商业领域的有效策略;同时分析微博用户对突发话题的关注行为还有益于改善个性化的用户服务。可见,从微博短文本流中检测并追踪突发话题具有重要的应用价值。然而,微博文本流属于短文本流,从短文本流中检测突发话题更具挑战性。为此,本文从以下三个方面对微博突发话题检测与追踪的方法进行了分析与研究:(1)充分利用微博文本中的突发特征,提出了一种基于BTM主题模型的微博突发话题检测方法。该方... 

【文章页数】:82 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与研究意义
    1.2 国内外研究现状
        1.2.1 主题模型研究现状
        1.2.2 突发话题检测研究现状
        1.2.3 突发话题演化追踪研究现状
    1.3 本文研究内容
    1.4 论文组织结构
    1.5 本章小结
第2章 相关理论基础和技术
    2.1 主题模型
        2.1.1 概率潜在语义索引模型PLSI
        2.1.2 隐含狄利克雷分布主题模型LDA
        2.1.3 稀疏主题模型BTM
    2.2 聚类算法分析概述
    2.3 概率分布相似度概述
    2.4 本章小结
第3章 基于BTM模型的微博突发话题检测方法
    3.1 引言
    3.2 基于时间窗口的微博文本获取
    3.3 微博突发特征的提取
        3.3.1 候选突发特征的提取
        3.3.2 重复伪突发特征的有效过滤
        3.3.3 传统物理动力学模型的改进
    3.4 基于BTM模型的突发话题主题建模
        3.4.1 BTM主题模型
        3.4.2 基于BTM主题模型的话题分类
    3.5 实验及结果分析
        3.5.1 实验环境
        3.5.2 实验数据
        3.5.3 实验结果与分析
        3.5.4 对比实验
    3.6 本章小结
第4章 基于BTM模型的微博突发话题的演化追踪方法
    4.1 引言
    4.2 微博突发话题演化的数据预处理
    4.3 微博突发话题演化模型
        4.3.1 微博突发话题演化的参数判断方法
        4.3.2 微博突发话题演化主题发现算法
    4.4 演化模型的参数估计
    4.5 微博突发话题演化追踪分析
    4.6 实验结果与分析
        4.6.1 实验环境
        4.6.2 实验数据
        4.6.3 微博突发话题演化追踪结果分析
        4.6.4 对比实验
    4.7 本章小结
第5章 微博突发话题检测方法的应用与分析
    5.1 引言
    5.2 工作流程设计
        5.2.1 数据模块
        5.2.2 预处理模块
        5.2.3 突发话题检测模块
        5.2.4 突发话题演化追踪模块
    5.3 系统实现
        5.3.1 开发平台与开发工具
        5.3.2 基本功能实现
    5.4 本章小结
第6章 总结与展望
    6.1 本文总结
    6.2 工作展望
参考文献
攻读学位期间发表的学术论文
致谢


【参考文献】:
期刊论文
[1]微博网络地域Top-k突发事件检测[J]. 仲兆满,管燕,李存华,刘宗田.  计算机学报. 2018(07)
[2]一种融合用户关系的自适应微博话题跟踪方法[J]. 柏文言,张闯,徐克付,张志明.  电子学报. 2017(06)
[3]基于转发关系的微博话题演化算法[J]. 徐伟,赵斌,吉根林.  计算机科学. 2016(02)
[4]面向动态主题数的话题演化分析[J]. 方莹,黄河燕,辛欣,魏骁驰,庄琨.  中文信息学报. 2014(03)
[5]微博信息传播网络的结构属性分析[J]. 王晓明,王莉,杨敬宗.  中文信息学报. 2014(03)
[6]一种基于特征演变的新闻话题演化挖掘方法[J]. 赵旭剑,杨春明,李波,张晖,金培权,岳丽华,戴文锴.  计算机学报. 2014(04)
[7]基于突发词聚类的微博突发事件检测方法[J]. 郭跇秀,吕学强,李卓.  计算机应用. 2014(02)
[8]在线社会网络中信息扩散[J]. 李栋,徐志明,李生,刘挺,王秀文.  计算机学报. 2014(01)
[9]一种面向微博主题挖掘的改进LDA模型[J]. 谢昊,江红.  华东师范大学学报(自然科学版). 2013(06)
[10]微博中基于统计特征与双向投票的垃圾用户发现[J]. 丁兆云,周斌,贾焰,汪祥.  计算机研究与发展. 2013(11)

硕士论文
[1]基于GPU并行聚类的加密分组密码算法的研究及实现[D]. 付腾达.南京理工大学 2013
[2]聚类分析的算法及应用[D]. 许丽利.吉林大学 2010



本文编号:3708486

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3708486.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户294c9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com