多文档集合话题情感挖掘研究

发布时间:2021-10-29 19:35
  本文研究多文档集合话题情感挖掘。本文使用能自动确定组件个数的层次Dirichlet过程将文档集合表示为多个组件的混合,每个组件包含话题词和情感成分,扩展了话题情感混合模型。模型能够从多文档集合上挖掘出一组话题。话题在各文档集上有各自的比例和对应的情感比例,并为每个文档集找到一个正面和一个负面词汇分布。模型通过马尔科夫链蒙特卡洛方法实现,实验表明模型可以找出有意义的话题和它们的情感倾向。模型在参数设置方面比现有的多侧面或联合情感模型有优势,在多领域情感数据集上的实验确认了模型有进行情感分析的能力。通过对中文事件微博和新闻语料的迭代过程实验,分析了衡量多文档集话题混合相似程度的参数,发现了一些微博媒体和新闻媒体的区别。新闻媒体上事件事实具体,微博则有更多的讨论,例如占领华尔街事件中新闻具体报道示威活动并表达了负面情绪,同时微博用户讨论不少和中国相关的话题使得正负情感变得偏向混合;新闻更多地报道本国工作,例如在马航MH370失联事件中对我方工作的报道。 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
主要符号对照表
第一章 绪论
    1.1 研究背景及目的
        1.1.1 研究背景
        1.1.2 研究内容和应用场景
    1.2 本文组织结构
第二章 相关工作
    2.1 话题情感联合挖掘
        2.1.1 观点发现方法
        2.1.2 联合情感话题模型
        2.1.3 话题情感混合模型
        2.1.4 和非联合方法的区别
    2.2 多文档集文本建模
    2.3 本章小结
第三章 多文档集合话题情感模型
    3.1 概念定义与说明
    3.2 模型设计
        3.2.1 基本假设
        3.2.2 模型:文档集生成过程
    3.3 模型推断方法
        3.3.1 马尔科夫链蒙特卡洛方法
        3.3.2 模型参数的推断
        3.3.3 模型超参数的设置
        3.3.4 模型初始化简述
    3.4 本章小结
第四章 实验结果与评测
    4.1 多文档集话题情感挖掘
        4.1.1 数据集说明
        4.1.2 前提假设和模型设置
        4.1.3 实验结果展示
    4.2 文档情感分析
        4.2.1 数据集说明
        4.2.2 情感分析方法
        4.2.3 模型参数设置和使用
        4.2.4 实验结果分析
    4.3 微博和新闻在同一事件上的话题情感对比研究
        4.3.1 任务背景
        4.3.2 数据集说明
        4.3.3 先验假设和参数设置
        4.3.4 事件参数分析
        4.3.5 实验结果展示与评价
        4.3.6 话题情感混合迭代分析
        4.3.7 本节小结
    4.4 本章小结
第五章 全文总结
    5.1 主要工作与创新点
    5.2 后续研究工作
    5.3 结束语
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与的项目
上海交通大学硕士学位论文答辩决议书


【参考文献】:
期刊论文
[1]特定事件微博与新闻报道话题对比研究[J]. 周振宇,李芳.  中文信息学报. 2014(01)
[2]面向顾客点评数据的属性层次观点挖掘研究(英文)[J]. 徐学可,程学旗,谭松波,刘悦,沈华伟.  中国通信. 2013(03)
[3]情感词汇本体的构造[J]. 徐琳宏,林鸿飞,潘宇,任惠,陈建美.  情报学报. 2008 (02)



本文编号:3465276

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3465276.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9780***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com