基于多标签新闻语料的阅读者情感分析
发布时间:2017-05-06 10:05
本文关键词:基于多标签新闻语料的阅读者情感分析,由笔耕文化传播整理发布。
【摘要】:伴随着Web 2.0技术的快速发展,许多工具如博客、微博、微信等成为人们日常生活中信息发布与共享的网络平台,每个人可以在网络上分享对某事件的观点、看法,其中也包含了大量的个人意见、主观情感和情绪反馈。基于大规模网络文本信息的情感分析是舆情分析领域的一个重要部分,探究文本信息中所包含群众情绪的动态趋势对于社会学研究有着重要意义。本文的研究主要是阅读者角度的情感分析问题,即通过分析新闻文本中的词语或包含的主题信息,来预测阅读者在读完这篇新闻后可能引发的情绪。在以往的研究中,文本情感分析主要是从作者角度出发探究其中表达的主观情感,对阅读者情绪反馈的相关研究相对较少;另一方面,相关领域通常将文本情感分析问题视为单标签问题进行处理,即默认一篇文档只能引发阅读者的一种情绪,显然这与实际问题不符,一篇新闻对于社会大众引起的情绪可能不尽相同,统计数据显示投票较多的情感类别一般有多个;此外,相关工作大部分是基于词袋模型进行的研究,根据社会心理学研究的观点,阅读者情绪不仅会与新闻文本中直观的词语有关联,还与新闻报道中隐含的事件主题有着间接关系。针对上述问题,本文基于社会大众标注的多标签语料进行了系统化的文本情感分析,主要的工作有以下几个方面:(1)多标签新闻语料的构建。针对研究中的着重点“多标签”、“阅读者”,将情感分析任务当做多标签分类问题,爬取了社会化标注的新浪社会新闻文本及其读者投票数据,并对投票数据进行处理。(2)分别采用词袋模型和主题模型对多标签新闻语料数据进行实验,并分析了实验结果。从不同角度对数据进行处理,针对二分类、多分类以及多标签分类问题对数据集进行建模,然后训练好模型预测阅读者情感。实验数据表明,在分类性能上主题模型相对优于词袋模型,并且,采用主题模型时文本的特征向量维度远远小于词袋模型,模型代价消耗较小,有着重要的现实意义。(3)借鉴混合标签的M-LDA方法,将情绪标签视为已知标签并将该方法应用到文本情绪分类中。传统的LDA是一个无监督的主题模型,应用在标签分类问题中往往需要结合分类器来进行。为了处理本文的多标签新闻语料,充分利用数据集的类别标签,借鉴的M-LDA是一种混合了已知类别的有监督主题模型。M-LDA考虑在模型的主题层将已知类别与隐含主题进行混合,在模型的建模过程中引入已知类别信息,最后以权重的大小排序输出标签。实验表明,M-LDA模型在单标签多分类问题以及多标签分类问题上表现出良好的性能,特别是对于多标签的读者情绪分类分类,相较于传统的方法在准确率上有较大的提升。
【关键词】:多标签 主题模型 LDA 情感分析
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 绪论12-18
- 1.1 研究背景、目的及意义12-13
- 1.2 国内外相关技术发展现状13-16
- 1.2.1 文本情感分析研究现状14-15
- 1.2.2 阅读者情感预测研究现状15-16
- 1.3 论文主要内容16-17
- 1.4 论文组织架构17-18
- 第二章 文本情感分析相关技术18-34
- 2.1 概述18-19
- 2.2 向量空间模型19-21
- 2.3 基于词袋模型的相关技术21-25
- 2.3.1 特征选择方法21-23
- 2.3.2 特征提取23-24
- 2.3.3 特征权重24-25
- 2.4 基于主题模型的相关技术25-30
- 2.4.1 PLSA主题模型26-27
- 2.4.2 LDA主题模型27-29
- 2.4.3 模型参数的估算29-30
- 2.5 机器学习分类器30-34
- 第三章 多标签新闻语料库的构建34-42
- 3.1 数据来源34-36
- 3.2 数据集简介36
- 3.3 单标签化处理36-37
- 3.4 多标签化处理37-42
- 第四章 基于LDA改进的混合已知类别的主题模型42-48
- 4.1 混合已知类别的主题模型(M-LDA)42-44
- 4.2 模型参数的估计和优化44-45
- 4.3 M-LDA在文本情绪分类中的应用45-48
- 第五章 实验与分析48-60
- 5.1 基于词袋模型的阅读者情感分析48-51
- 5.1.1 多类分类器构造方法49
- 5.1.2 单标签分类实验与分析49-51
- 5.2 基于主题模型的阅读者情感分析51-60
- 5.2.1 二分类52-54
- 5.2.2 多类别分类54-55
- 5.2.3 多标签分类实验55-60
- 总结和展望60-62
- 参考文献62-66
- 攻读硕士学位期间发表的学术论文66-68
- 致谢68
【相似文献】
中国期刊全文数据库 前1条
1 刘丽;;“标签新闻”的符号学分析[J];编辑之友;2014年06期
中国硕士学位论文全文数据库 前1条
1 彭晓彬;基于多标签新闻语料的阅读者情感分析[D];广东工业大学;2016年
本文关键词:基于多标签新闻语料的阅读者情感分析,由笔耕文化传播整理发布。
,本文编号:348179
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/348179.html