当前位置:主页 > 管理论文 > 移动网络论文 >

基于LDA的微博与传统媒体的话题对比研究

发布时间:2022-02-23 03:19
  在科技日新月异的时代,随着互联网在全世界的普及,人们获取信息的途径已经从传统媒体,如报刊、杂志、电视、广播等途径转变为网站、论坛、博客等。特别是伴随着Web2.0时代的到来,微博等即时、社交类的媒体正在飞速发展。人们从微博上快速地获取信息已经成为了一种趋势。为了厘清微博这种新媒体形势与传统媒体的差别,了解到两种媒体上讨论事件时,哪些话题是普遍的,哪些话题是特有的,相同的话题在内容与关注度上的趋势有什么样的不同,相同的话题在表达上有什么差异。我们借助统计概率模型,结合传统媒体与微博在文本上的特征,提出了一种基于LDA话题模型的微博与传统媒体上话题对比研究的方法。本文提出的方法首先利用LDA模型对特定事件的微博与新闻报道语料按时间先离散进行建模,将话题的语义信息抽取出来。接着,本文提出了根据文档字数设置权值的关注度计算方法,计算各话题的关注度,了解每个话题在两种媒体上被关注的程度,两种媒体关注度高的是哪些话题,哪些话题是特有的。然后,利用Jenson-Shannon距离,计算相同话题在相邻时间段上的演化度,得到演化路径,分析演化路径上话题在内容和关注度上的趋势变化,并对比相同话题在微博与新... 

【文章来源】:上海交通大学上海市211工程院校985工程院校教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1. 研究背景及意义
    1.2. 研究目的
    1.3. 研究内容
    1.4. 本章小结
第二章 相关研究介绍
    2.1. 微博与新闻报道研究概述
    2.2. 基于话题模型的话题发现
        2.2.1. 常用的话题模型
        2.2.2. 微博上常用的话题模型
    2.3. 新闻报道与微博话题对比研究
        2.3.1. 新闻报道上的话题研究
        2.3.2. 微博上的话题研究
        2.3.3. 微博与新闻报道上话题的对比研究
    2.4. 本章小结
第三章 基于 LDA 的话题发现与相同话题的识别
    3.1. 本文的符号
    3.2. 话题的发现
        3.2.1. 话题的定义
        3.2.2. 话题的生成
        3.2.3. 话题的分类
    3.3. 相同话题的识别
        3.3.1. 同一种媒体上相邻时间段内相同话题的识别
        3.3.2. 不同媒体同一时间段上相同话题的识别
    3.4. 本章小结
第四章 微博与新闻报道对比研究
    4.1. 关注度指标
    4.2. 演化度指标
        4.2.1. 非相邻时间段上两个话题的距离
        4.2.2. 演化度指标
    4.3. 差异度指标
        4.3.1. 话题在不同词表上的平滑
        4.3.2. 话题分布的距离
        4.3.3. 差异度指标
    4.4. 系统实现
    4.5. 本章小结
第五章 实验结果与分析
    5.1. 实验语料与参数设置
        5.1.1. 语料搜集
        5.1.2. 文本预处理
        5.1.3. 中文分词
        5.1.4. 参数设置
    5.2. 话题发现(LDA)的实验
    5.3. 关注度指标的实验
    5.4. 演化度指标的实验及趋势分析
    5.5. 相同话题识别的实验
    5.6. 差异度指标的实验
    5.7. 本章小结
第六章 总结与展望
    6.1. 本文的总结
        6.1.1. 本文的主要工作
        6.1.2. 本文的主要贡献
    6.2. 未来的展望
参考文献
致谢
攻读硕士学位期间已发表或录用的论文


【参考文献】:
硕士论文
[1]基于话题模型的科技文献话题发现与趋势分析[D]. 贺亮.上海交通大学 2012
[2]基于LDA的新闻线索抽取研究[D]. 闫泽华.上海交通大学 2012
[3]基于LDA的新闻话题演化研究[D]. 楚克明.上海交通大学 2010



本文编号:3640764

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3640764.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27b97***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com