面向微博数据的热点事件发现与分析方法

发布时间:2022-02-26 09:34
  微博是中国重要的社交媒体之一,拥有庞大的用户群体。在微博中,用户能够通过短文本的形式分享动态,讨论时事热点。同时,很多企业和政府开设官方微博账号,利用微博账号在微博上分享新闻,并和广大用户互动。因此,微博作为一个舆论汇聚的地方,从中提取公众所关注的事件,并分析公众动态一直都是社交媒体研究的重点。微博事件的提取首先需要对微博博文进行研究。而微博博文口语化、文本短的特点使得微博博文的语义信息少且提取困难。因此,面向传统文本的事件提取方法运用到微博博文上准确率不高。同时,随着互联网用户的不断增加,微博博文的规模也越来越庞大,研究者需要考虑在大数据环境下处理微博博文所面临的时间效率问题。针对上述问题,本文提出了一个基于Spark的两阶段热点事件发现模型。该模型通过文本聚类和语义聚类两个阶段对微博数据进行处理,并设计了基于大数据计算引擎Spark的计算框架。在文本聚类阶段,本文通过数据分片和优化的K-Means算法对微博博文进行聚类,减少数据量的同时扩充语义信息;在语义聚类阶段,从文本聚类的结果中提取关键词为语义聚类提供充足的语义信息,并利用LDA主题模型进行事件发现。实验表明,该模型在准确率和... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 微博热点事件发现
        1.2.2 微博可视化分析
    1.3 主要工作
    1.4 论文组织结构
第2章 相关研究基础
    2.1 热点事件发现方法
        2.1.1 微博热点事件发现概述
        2.1.2 基于关键词提取的微博热点事件发现方法
        2.1.3 基于主题模型的微博热点事件发现方法
    2.2 微博可视化方法
        2.2.1 基于事件展示的可视化方法
        2.2.2 基于地理信息的可视化方法
        2.2.3 基于微博关键词的可视化方法
    2.3 大数据平台
        2.3.1 文件系统HDFS
        2.3.2 大数据计算引擎Spark
    2.4 本章小结
第3章 基于Spark的两阶段热点事件发现模型
    3.1 术语定义
    3.2 两阶段热点事件发现模型
        3.2.1 系统框架
        3.2.2 博文预处理
        3.2.3 文本聚类
        3.2.4 关键词提取
        3.2.5 语义聚类
    3.3 模型大数据环境设计
        3.3.1 计算框架
        3.3.2 聚类中心点更新
        3.3.3 倒排序计算IDF值
    3.4 实验及分析
        3.4.1 准确性验证
        3.4.2 时间效率验证
    3.5 本章小结
第4章 微博热点事件可视化分析系统
    4.1 可视化分析系统设计
        4.1.1 总体设计
        4.1.2 数据分析
        4.1.3 实验环境及系统架构
    4.2 总体分析
        4.2.1 事件比例和性别比例可视化分析
        4.2.2 事件发展可视化分析
    4.3 事件分析
        4.3.1 复杂查询
        4.3.2 地域分析
        4.3.3 词共现关系展示
    4.4 本章小结
第5章 总结与展望
    5.1 总结
    5.2 展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果


【参考文献】:
期刊论文
[1]基于词共现网络的对农微博热点话题及用户舆情分析——以中国乡村之声官方微博为例[J]. 赵雪,马娟娟.  新闻爱好者. 2019(11)
[2]基于关系圈与个体交互习惯的用户关系强度计算方法[J]. 琚春华,陶婉琼,马希骜.  情报学报. 2019(09)
[3]基于共词分析的国内政务微博热点主题研究的可视化分析[J]. 方兴林.  湖北工程学院学报. 2019(01)
[4]基于余弦距离选取初始簇中心的文本聚类研究[J]. 王彬宇,刘文芬,胡学先,魏江宏.  计算机工程与应用. 2018(10)
[5]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景.  软件学报. 2018(07)
[6]基于词共现网络的微博话题发现方法[J]. 李伟,贾彩燕.  数据采集与处理. 2018(01)
[7]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国.  软件学报. 2017 (12)
[8]微博网络地域Top-k突发事件检测[J]. 仲兆满,管燕,李存华,刘宗田.  计算机学报. 2018(07)
[9]面向微博主题的可视分析研究[J]. 王臻皇,陈思明,袁晓如.  软件学报. 2018(04)
[10]基于社交关系的微博主题情感挖掘[J]. 黄发良,于戈,张继连,李超雄,元昌安,卢景丽.  软件学报. 2017(03)

硕士论文
[1]中文社交媒体话题关键词抽取算法[D]. 何伟名.北京交通大学 2017



本文编号:3644385

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3644385.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户559ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com