基于微博的情感分析算法研究与实现
发布时间:2017-04-10 12:15
本文关键词:基于微博的情感分析算法研究与实现,由笔耕文化传播整理发布。
【摘要】:近年来,随着微博的快速发展,微博数据成倍增长,如何利用这些海量的数据,挖掘有用的信息,成为了研究热点。其中,微博情感分类是一个比较热门的研究方向,它在分析与预测时事走向、反馈商品和产品意见、分析消费者喜好、政府网络舆情监控等方面都有广泛的应用。微博情感分类研究分为以下三个方面:基于情感词典的分类、基于机器学习的分类和基于特征融合的分类。由于微博信息量少、格式不规范、语言风格多变、含有大量的噪音等原因,微博情感分类研究的效果不理想。针对这一情况,本文结合了现有的情感分类算法,针对微博信息的特点,设计并实现了三种微博情感分类方案,提高微博情感分类的效果。本文主要贡献包括:1、设计了基于情感计算的情感分类算法。该算法的基础是情感词典,目标是包含有很明显的正、负情感词的微博。在传统以单个情感词典为核心的情感分类的基础上,该算法结合了四个常用的情感词典,从多个维度描述微博,通过计算微博包含的情感词的情感倾向,计算微博的情感倾向,从而判断微博的情感分类。2、设计了基于分类器融合的情感分类算法。该算法的基础是机器学习,它适合大量数据处理。该算法详细的分析了基于机器学习的情感分类方法,结合了三个常用的分类算法,提取三个不同分类器的预测标签和预测得分,根据融合分类器,预测微博的分类标签。3、设计了基于特征融合的情感分类算法。该算法把人类情感分析和机器学习方法相结合,先分析微博本身特有的特点,并且根据人类情感的表达方式,选取了四组特征;然后,选用了客观的统计特征;最后,把两方面特征融合,用SVM训练模型,预测微博的情感分类。通过实验证明了本文设计的方法可以有效的提高微博情感分类的能力。
【关键词】:情感分类 情感计算 机器学习 特征融合 情感词典
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-15
- 1.1 课题的研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.3 本文的主要内容和结构安排14-15
- 第2章 相关技术和资源15-20
- 2.1 预处理技术15-16
- 2.2 微博文本表示16-17
- 2.3 情感资源介绍17-18
- 2.4 情感分类评估方法18-19
- 2.5 本章小结19-20
- 第3章 基于情感词典的情感分类20-30
- 3.1 基于情感词典的情感分类20-21
- 3.1.1 微博的情感分类介绍20
- 3.1.2 基于情感词典的情感分类算法20-21
- 3.2 基于情感计算的情感分类算法21-23
- 3.2.1 情感词的权重21-22
- 3.2.2 情感倾向性计算22
- 3.2.3 算法描述22-23
- 3.3 实验设计与结果分析23-29
- 3.3.1 实验数据23-24
- 3.3.2 SCAAC算法性能分析24-27
- 3.3.3 SCAAC算法实验结果与分析27-29
- 3.4 本章小结29-30
- 第4章 基于分类器融合的情感分类30-43
- 4.1 特征选择30-33
- 4.1.1 互信息(MI,Mutual Information)30
- 4.1.2 卡方检验(Chi-square)30-32
- 4.1.3 信息增益(IG,Information Gain)32-33
- 4.2 基于分类器融合的情感分类算法设计33-39
- 4.2.1 朴素贝叶斯情感分类33-34
- 4.2.2 SVM情感分类34-36
- 4.2.3 KNN情感分类36-37
- 4.2.4 分类器融合的情感分类算法原理37-39
- 4.3 实验39-42
- 4.3.1 SCACF算法性能分析39-41
- 4.3.2 SCACF算法实验结果分析41-42
- 4.4 本章小结42-43
- 第5章 基于特征融合的情感分类43-59
- 5.1 微博特征对情感分类的影响43-51
- 5.1.1 词性特征对微博情感分类的影响43-45
- 5.1.2 表情符号对微博情感分类的影响45-47
- 5.1.3 语法关系对微博情感分类的影响47-51
- 5.2 基于特征融合的情感分类算法51-54
- 5.2.1 特征选择和融合51-52
- 5.2.2 基于特征融合情感分类实现52-54
- 5.3 实验结果与分析54-58
- 5.3.1 SCAFF算法性能分析54-56
- 5.3.2 SCAFF算法实验结果分析56-58
- 5.4 本章小结58-59
- 结论59-60
- 致谢60-61
- 参考文献61-65
- 攻读硕士学位期间发表的论文及科研成果65
【参考文献】
中国期刊全文数据库 前1条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
本文关键词:基于微博的情感分析算法研究与实现,,由笔耕文化传播整理发布。
本文编号:296697
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/296697.html