当前位置:主页 > 管理论文 > 移动网络论文 >

博客话题与新闻话题关联方法研究

发布时间:2021-05-11 13:35
  随着新媒体的不断诞生,传统媒体如何利用新媒体来发展自身开始受到人们的关注。作为Web2.0以后代表性的新媒体平台,博客的价值越来越受到传统新闻媒体的重视。新闻媒体根据博客中讨论的话题热点来确定对人们对相关新闻的关注角度和趋势,通过找到与新闻话题相关联的博文话题,我们能够为客观的新闻报道提供主观性的评论与参考。本文借助话题模型方法,结合博文的结构特征和内容特征,对博文话题与新闻话题之间的关联检测方法进行了研究。首先,利用VEM模型来构建新闻话题模型和博文话题模型,根据博文的结构特征对博文语料进行了改进,获得了博文和新闻语料的话题语义信息。然后,利用欧几里得距离、余弦相似度、Hellinger距离、Tanimoto系数和JS距离五种常见的相似度算法作为关联判定方法,对获得的话题模型进行了关联检测。之后,提出了一种基于投票的关联判定方法,利用以上五种关联判定方法找到每个新闻话题的最佳关联博文。最后,对所获得的实验结果进行了分析评价,并对每种关联方法,以及投票方法的结果进行了评价和分析。实验获得了多种常见的关联方法在新闻-博文话题关联中的表现,显示出了余弦相似度和Tanimoto系数在此项工作... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:85 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
目录
图录
表录
第一章 绪论
    1.1 研究背景
    1.2 研究目的
    1.3 研究内容
    1.4 论文主要内容与章节安排
第二章 相关研究工作介绍
    2.1 新闻研究概述与博客研究现状
        2.1.1 新闻研究概述
        2.1.2 博客研究现状
    2.2 博客常用话题模型
        2.2.1 LDA 模型
        2.2.2 标签-话题模型(tag-topic model)
        2.2.3 Labeled-LDA
    2.3 新闻-博文研究
        2.3.1 新闻报道-博客文档关联
        2.3.2 热点新闻发现
    2.4 本章小结
第三章 博文话题发现
    3.1 博文语料的特征
        3.1.1 博文的结构特征
        3.1.2 博文的内容特征
    3.2 博文话题识别
        3.2.1 话题定义
        3.2.2 博文话题词的加权与筛选
        3.2.3 话题模型
        3.2.4 话题模型选择标准
    3.3 本章小结
第四章 新闻话题与博文话题关联方法
    4.1 关联度获取
        4.1.1 欧几里得距离(Euclidean Distance)
        4.1.2 余弦相似度(Cosine Similarity)
        4.1.3 Hellinger 距离(Hellinger distance)
        4.1.4 Tanimoto 系数(广义 Jaccard 系数)
        4.1.5 JS 距离(Jensen-shannon Divergence)
    4.2 关联结果优化
        4.2.1 基于投票的关联结果判定
        4.2.2 投票系统的改进——投票权
    4.3 本章小结
第五章 实验结果及分析
    5.1 实验语料
        5.1.1 语料获取
        5.1.2 对获取语料的预处理
    5.2 话题模型构建
        5.2.1 参数和模型设定
        5.2.2 关联方法的阈值选取
        5.2.3 话题模型的结果
    5.3 关联度比较分析
        5.3.1 欧几里得距离
        5.3.2 余弦相似度
        5.3.3 Hellinger 距离
        5.3.4 Tanimoto 系数
        5.3.5 JS 距离
        5.3.6 关联度比较分析小结
    5.4 投票系统
    5.5 评测指标
    5.6 测评结果分析
    5.7 本章小结
第六章 总结与展望
    6.1 全文总结
    6.2 进一步的工作
参考文献
致谢
攻读硕士学位期间已发表或录用的论文


【参考文献】:
期刊论文
[1]基于主题模型的博客标签语义知识获取(英文)[J]. 何婷婷,李芳.  中国通信. 2012(03)
[2]一种基于密度的自适应最优LDA模型选择方法[J]. 曹娟,张勇东,李锦涛,唐胜.  计算机学报. 2008(10)



本文编号:3181495

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3181495.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户13b06***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com