当前位置:主页 > 科技论文 > 软件论文 >

基于主题词向量模型的话题演化分析技术研究

发布时间:2023-01-14 15:57
  近年来,热点话题层出不穷,不断点燃网络舆论。几乎每个热点话题都有铺天盖地的相关信息。有效的对话题演化进行分析有助于人们及时了解话题发展动态,掌握话题演化脉络,总结话题发展规律,为科学制定决策提供帮助。已有的相关研究分析较为粗糙且不够深入,主要存在如下三个方面问题:(1)重在捕捉全局的主题语义信息,没有兼顾局部词汇语义信息,语义连贯性较差;(2)对话题发展过程中有显著影响事件的定位准确性较差;(3)不能有效厘清话题的演化发展脉络,无法高效的对话题的演化趋势进行直观展示。主题词向量模型能够有效解决或改善以上问题。本文研究了基于主题词向量模型的话题演化分析技术,主要研究成果如下:(1)研究了话题内新事件检测。传统的主题模型无法有效兼顾文档隐含的主题语义信息和局部词汇语义信息,实际应用中性能不够理想且波动较大。本文提出了基于主题词向量聚类的话题内新事件检测方法。首先,通过主题词向量模型对经预处理的文档进行训练来获取主题词向量,可以有效的兼顾全局的主题语义信息和局部词汇语义信息;然后,对获取的主题词向量进行K-means聚类来获取话题内的子话题分布;最后,基于各个子话题所包含文档时间戳的先后顺序... 

【文章页数】:88 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 相关概念与定义
    1.3 话题演化分析技术研究综述
        1.3.1 传统的话题演化分析技术
        1.3.2 新事件检测
        1.3.3 事件关系识别
        1.3.4 话题演化可视化展示
    1.4 论文研究内容与组织结构
        1.4.1 论文研究内容
        1.4.2 论文组织结构
第2章 主题词向量模型与语料库建设
    2.1 主题模型
        2.1.1 主题模型简介
        2.1.2 主题模型基础
        2.1.3 隐含狄利克雷分配
    2.2 词向量模型
    2.3 主题词向量模型
    2.4 语料库建设
        2.4.1 数据来源
        2.4.2 语料库标注
    2.5 本章小结
第3章 基于主题词向量聚类的话题内新事件检测
    3.1 基于主题词向量聚类的话题内新事件检测方法原理分析
        3.1.1 话题内新事件检测与TDT新事件检测的区别
        3.1.2 话题内新事件检测面临的挑战
        3.1.3 主题词向量聚类
    3.2 方法流程及关键技术
        3.2.1 方法流程
        3.2.2 基于K-means聚类算法的话题抽取
        3.2.3 话题内新事件检测
    3.3 实验结果与分析
        3.3.1 实验语料
        3.3.2 评价标准
        3.3.3 实验结果及性能比较
    3.4 本章小结
第4章 基于主题词向量模型的事件演化关系识别
    4.1 事件演化关系识别相关概念
    4.2 基于主题词向量模型的事件演化关系识别方法原理分析
        4.2.1 事件演化关系识别的核心问题分析
        4.2.2 方法原理分析
    4.3 方法流程及关键技术
        4.3.1 方法流程
        4.3.2 事件向量构建
        4.3.3 事件相似度计算及事件演化关系识别
    4.4 实验结果与分析
        4.4.1 实验语料
        4.4.2 评价标准
        4.4.3 实验结果及性能比较
    4.5 本章小结
第5章 基于事件向量聚类的话题演化图构建
    5.1 基于事件向量聚类的话题演化图构建方法原理分析
        5.1.1 话题演化图构建核心问题分析
        5.1.2 方法原理分析
    5.2 方法流程及关键技术
        5.2.1 方法流程
        5.2.2 节点发现
        5.2.3 节点间边建立
        5.2.4 话题演化图构建
    5.3 实验结果与分析
        5.3.1 实验语料
        5.3.2 评价标准
        5.3.3 实验结果与性能比较
        5.3.4 话题演化图展示
    5.4 本章小结
第6章 总结与展望
    6.1 论文总结
    6.2 下一步工作
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果


【参考文献】:
期刊论文
[1]网络舆情场内信息受众观点的“三体”可视化框架构建[J]. 周昕,高俊峰,潘逸尘.  情报科学. 2018(11)
[2]一种基于社交事件关联的故事脉络生成方法[J]. 李莹莹,马帅,蒋浩谊,刘喆,胡春明,李雄.  计算机研究与发展. 2018(09)
[3]基于词向量的中文事件发现及表示[J]. 张斌,胡琳梅,侯磊,李涓子.  模式识别与人工智能. 2018(03)
[4]基于LDA的双通道在线主题演化模型[J]. 曹建平,王晖,夏友清,乔凤才,张鑫.  自动化学报. 2014(12)
[5]面向动态主题数的话题演化分析[J]. 方莹,黄河燕,辛欣,魏骁驰,庄琨.  中文信息学报. 2014(03)
[6]一种基于特征演变的新闻话题演化挖掘方法[J]. 赵旭剑,杨春明,李波,张晖,金培权,岳丽华,戴文锴.  计算机学报. 2014(04)
[7]狄利克雷过程混合模型、扩展模型及应用[J]. 梅素玉,王飞,周水庚.  科学通报. 2012(34)
[8]基于局部和全局的LDA话题演化分析[J]. 章建,李芳.  上海交通大学学报. 2012(11)
[9]一种话题演化建模与分析方法[J]. 胡艳丽,白亮,张维明.  自动化学报. 2012(10)
[10]网络舆情中一种基于OLDA的在线话题演化方法[J]. 胡艳丽,白亮,张维明.  国防科技大学学报. 2012(01)



本文编号:3730710

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3730710.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户693be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com