当前位置:主页 > 科技论文 > 软件论文 >

微博文本情感分类研究

发布时间:2017-10-12 13:24

  本文关键词:微博文本情感分类研究


  更多相关文章: 微博文本情感分类 情感词典 深度学习 LSTM PMI-IR


【摘要】:作为文本数据挖掘的重要分支—文本情感分类(舆情分析),近年来受到越来越多的关注,同时也被广大学者所研究。伴随着微博的发展,使得短文本情感分析研究越来越热。微博文本中存在大量的新词,这些词具有明显的情感正负极性,但是它们没有加入到情感词典中,这会大大减弱我们的分类效果,情感词典的自动扩充是我们对微博情感分类研究一个重点。传统的基于情感词典的情感分类模型构建起来比较简单容易实现且分类速度较快,但是分类的准确度较低,分类的好坏主要取决于情感词典的好坏。但是构建准确的情感词典需要我们具有一定的语言知识背景,这些背景知识的要求会阻碍我们对于微博情感分类的研究。现在研究中已存在不少扩充情感词典的方法,也取得了不错的效果,针对点互信息方法构建词典需要构建完整语料库的问题,我们提出了一种点互信息和信息检索相结合的算法来自动扩充情感词典。对于传统模型分类精度较低且构建传统模型对语言背景知识要求等一些问题,构建了一种基于深度学习的微博文本情感分类模型,针对构建深度模型的训练语料库的问题提出了结合传统模型和深度学习模型的算法,具体工作如下:第一,新词识别,微博情感词典的自动扩充。为了解决传统模型下情感词典自动扩充的问题,提出了PMI-IR算法(点互信息与信息检索相结合的方法)来对微博的未登录词、新词进行识别,然后再更新到情感词典当中。第二,构建情感词典,根据构建的情感词典制定相应的判别规则来对文本进行分类。将情感词典分为了4个部分:基础情感词典(消极情感词典、积极情感词典)、程度副词词典、连词词典和否定词典。本文收集了网络上的几个主流情感词典:台湾大学NTUSD-简体中文情感极性词典,知网hownet情感词典,以及大连理工大学的中文情感词汇本体库。对这些情感词典整合到了一起去除了那些重复的词汇,还对其中相当一部分词汇进行了校正优化,依据我们构建的微博情感词典制定了相应的判别规则来对微博文本进行情感分类。第三,文本深度学习模型构建,使用传统模型来收集深度模型的训练语料库。针对传统模型分类准确度较低的情况,构建了微博文本情感分类的深度学习模型,构建了基于LSTM(长短期记忆模型)的微博文本情感分类;由于这个模型是监督训练的,需要收集大量已经分好类的语料,因此我们提出使用传统模型分类好的确定集来作为深度学习模型下的训练语料库;结合二种模型来帮助我们提高分类的精准度。
【关键词】:微博文本情感分类 情感词典 深度学习 LSTM PMI-IR
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 绪论10-15
  • 1.1 研究背景10-11
  • 1.2 研究意义及目的11-12
  • 1.3 研究现状12-13
  • 1.4 本文工作13-15
  • 第2章 微博文本情感分类相关技术15-25
  • 2.1 文本预处理15-18
  • 2.2 文本表示模型18-20
  • 2.2.1 向量空间模型18-20
  • 2.2.2 布尔模型20
  • 2.2.3 概率主题模型简介20
  • 2.3 深度学习常用的模型和方法20-24
  • 2.4 本章小结24-25
  • 第3章 基于情感词典的微博文本情感分类25-35
  • 3.1 句子自动分词25-26
  • 3.2 微博情感词典构建26-28
  • 3.2.1 程度副词词典26-27
  • 3.2.2 否定词典27
  • 3.2.3 连词词表27-28
  • 3.2.4 基础情感词表28
  • 3.3 基于PMI-IR算法的微博情感词典自动扩充28-31
  • 3.3.1 概述28-29
  • 3.3.2 基于PMI-IR算法的词语情感极性判别29-31
  • 3.4 微博文本情感分类31-32
  • 3.5 实验结果和分析32-34
  • 3.6 本章小结34-35
  • 第4章 基于深度学习的微博文本情感分类35-51
  • 4.1 文本深度表示35-38
  • 4.2 提取长短期记忆模型LSTM38-46
  • 4.2.1 Recurrent Neural Networks38-40
  • 4.2.2 长期依赖40-41
  • 4.2.3 LSTM网络41-43
  • 4.2.4 LSTM核心思想43-46
  • 4.3 基于LSTM模型的文本情感分类46-48
  • 4.3.1 标注语料库收集46-47
  • 4.3.2 搭建LSTM模型47-48
  • 4.4 实验结果和分析48-49
  • 4.5 本章小结49-51
  • 第5章 结论与展望51-53
  • 5.1 结论51
  • 5.2 展望51-53
  • 参考文献53-56
  • 作者简介及在学期间所取得的科研成果56-57
  • 致谢57

【参考文献】

中国期刊全文数据库 前7条

1 孙建旺;吕学强;张雷瀚;;基于词典与机器学习的中文微博情感分析研究[J];计算机应用与软件;2014年07期

2 侯敏;滕永林;李雪燕;陈毓麒;郑双美;侯明午;周红照;;话题型微博语言特点及其情感分析策略研究[J];语言文字应用;2013年02期

3 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期

4 赵妍妍;秦兵;车万翔;刘挺;;基于句法路径的情感评价单元识别[J];软件学报;2011年05期

5 党蕾;张蕾;;一种基于知网的中文句子情感倾向判别方法[J];计算机应用研究;2010年04期

6 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期

7 徐琳宏;林鸿飞;潘宇;任惠;陈建美;;情感词汇本体的构造[J];情报学报;2008年02期



本文编号:1018958

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1018958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84696***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com