基于语义相关的网络文本情感分类研究
发布时间:2017-03-25 08:07
本文关键词:基于语义相关的网络文本情感分类研究,由笔耕文化传播整理发布。
【摘要】:在Web2.0时代,人们能够主动地在网络上表达和传播自己的观点、态度、情感以及情绪等,由此产生了海量带有主观色彩的网络文本。面对如此大规模的网络文本数据,如果仅仅依靠人工的方式进行分析显然不切实际,由此推动了文本情感分析技术的产生与发展。目前,该技术已经被成功运用到舆情分析、产品营销、股价预测等领域,具有十分重要的理论价值和实用价值。网络文本由于存在主题广泛、用词不规范、篇幅短和逻辑混乱等特点,给网络文本情感分析的研究带来了许多的困难与挑战。鉴于此,本文以网络评论文本和微博文本为研究对象,深入地讨论了语义相关性的概念,并将主题模型和词向量模型这两种语义挖掘方法引入到网络文本情感倾向的分析中,以此有效地提高网络文本情感分类的精度。具体内容如下:(1)对“相似”与“相关”两者概念之间的区别与联系进行介绍与总结,指出“相关性”的概念涵盖了“相似性”的概念。然后进一步明确词语相关性的定义,对词语相关性的一系列计算方法进行总结,并阐述了主题模型和词向量模型的核心思想以及它们在挖掘词语背后语义关联方面的出色表现。(2)基于主题模型的网络文本情感分类研究,主要包括:(1)通过制定上下文与当前词两者之间搭配规则的方式构造情感单元,以此从文本中提取出对网络文本情感分类的研究有用的情感信息;(2)提出基于主题模型的算法从情感信息中抽取出关键特征,并以此构建向量空间模型,最后利用机器学习分类器实现网络文本情感的分类。实验结果证明了本文方法的有效性,并且其在降维方面比一般的降维方法表现更佳。(3)面向微博的网络文本情感分类研究,主要进行两部分的研究。第一部分是表情符情感倾向自动标注方法的研究,主要是通过统计与人工结合的方法筛选得到种子词,并基于种子词设计算法实现对表情符的情感倾向进行自动标注。第二部分是基于word2vec的微博文本情感分类研究,主要包括:(1)利用情感词典提取文本中的情感特征,并提出通过定义的方式将特征分为种子特征、相似特征和剩余特征三大类;(2)提出基于word2vec的算法将特征合并成特征集的形式,以此构建基于特征集的文本向量,然后利用机器学习分类器实现微博文本情感的分类。实验结果证明了本文提出的表情符情感倾向自动标注方法和微博文本情感分类方法的有效性,并且后者的降维效果表现出色。(4)在本文方法的基础上设计并实现实验系统,对文本情感分类进行探讨。系统包括了数据预处理、情感词典构建、文本情感分析和实验报告四个模块。
【关键词】:网络文本 情感分类 语义相关性 主题模型 词向量模型
【学位授予单位】:广东外语外贸大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 绪论10-16
- 1.1 研究背景与意义10-11
- 1.2 研究现状11-14
- 1.3 主要研究内容与组织结构14-16
- 1.3.1 主要研究内容14-15
- 1.3.2 论文组织结构15-16
- 第2章 文本情感分析关键技术16-26
- 2.1 概述16
- 2.2 文本预处理16-18
- 2.3 文本表示技术18-20
- 2.3.1 文本表示模型18-19
- 2.3.2 文本特征选择19-20
- 2.4 情感词典20-22
- 2.5 文本分类方法22-24
- 2.5.1 朴素贝叶斯分类方法23
- 2.5.2 支持向量机23-24
- 2.6 评价指标24-25
- 2.7 小结25-26
- 第3章 语义相关性26-33
- 3.1 相似性与相关性26-27
- 3.2 词语相关性27-29
- 3.3 主题模型29-31
- 3.4 词向量模型31-32
- 3.5 小结32-33
- 第4章 基于主题模型的网络文本情感分类方法33-42
- 4.1 方法概述33-34
- 4.2 情感信息抽取34-37
- 4.2.1 情感词典35
- 4.2.2 提取情感特征35-37
- 4.3 基于主题的情感向量空间模型构建37-39
- 4.3.1 提取关键特征37-39
- 4.3.2 计算特征权重39
- 4.4 实验结果及分析39-41
- 4.4.1 实验数据39
- 4.4.2 评价指标39
- 4.4.3 实验结果及分析39-41
- 4.5 小结41-42
- 第5章 面向微博的网络文本情感分类方法42-57
- 5.1 表情符的情感倾向自动标注方法研究42-47
- 5.1.1 方法概述42-43
- 5.1.2 标注语料库的构建43-44
- 5.1.3 情感倾向明显的表情符的自动标注44-45
- 5.1.4 情感倾向不明显的表情符的自动标注45
- 5.1.5 实验与结果分析45-47
- 5.2 基于word2vec的微博文本情感分类方法47-55
- 5.2.1 方法概述47-49
- 5.2.2 文本情感特征的提取49
- 5.2.3 基于特征集的文本向量表示49-51
- 5.2.4 特征集构造算法51-52
- 5.2.5 实验与结果分析52-55
- 5.3 小结55-57
- 第6章 文本情感分析实验系统的设计与实现57-67
- 6.1 系统基本架构57
- 6.2 系统设计57-61
- 6.2.1 数据库设计57-58
- 6.2.2 数据预处理模块设计58-60
- 6.2.3 情感词典构建设计60
- 6.2.4 文本情感分析模块设计60-61
- 6.2.5 实验报告模块设计61
- 6.3 系统实现61-66
- 6.3.1 数据预处理模块实现61-62
- 6.3.2 情感词典构建模块实现62
- 6.3.3 文本情感分析模块实现62-63
- 6.3.4 实验报告模块实现63-66
- 6.4 小结66-67
- 第7章 总结与展望67-69
- 7.1 研究总结67
- 7.2 研究展望67-69
- 参考文献69-73
- 致谢73-74
- 在学期间的研究成果及发表的学术论文74
- 在学期间参与的科研项目74
【相似文献】
中国期刊全文数据库 前10条
1 刘建华;张智雄;谢靖;邹益民;;基于规则的网络文本资源标题快速自动识别方法[J];现代图书情报技术;2011年06期
2 刘倩;;网络文本情感分析综述——从中文和英文的缝隙中看到契机[J];新闻传播;2013年08期
3 戴丽贞;;移动IP化网络文本分类聚类模型[J];中国新通信;2014年02期
4 曾依灵;许洪波;白硕;;网络文本主题词的提取与组织研究[J];中文信息学报;2008年03期
5 费银银;;狂欢环境下的网络文本特性简析[J];新闻世界;2012年07期
6 李璐e,
本文编号:266892
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/266892.html