基于知识元和集成学习的中文微博情感分析
发布时间:2017-10-04 10:25
本文关键词:基于知识元和集成学习的中文微博情感分析
更多相关文章: 微博 情感分析 知识元 微博情感知识集 集成学习 贝叶斯决策
【摘要】:微博是目前最流行的社交网络平台之一,是可以自由发表观点的地方,这些观点涉及商品评论、舆情事件、娱乐评论等,同时,微博数据的易获取性也为其情感分析的研究提供了便利性,使得微博的情感分析成为国内外学者们研究的热点。本文提出了借助知识元理论构建的微博情感知识集的方法,并使用提取的情感知识辅助微博特征提取和扩充以及情感对象的识别,最后使用多个不同分类器集成的方法完成对微博的情感分析任务。论文提出了构建微博情感知识集的方法,采用知识元理论作为微博情感知识集的表示方式。该方法首先通过查阅资料和在其他新闻网站上搜集资料,构建初始的微博情感先验知识集,然后通过基于条件随机场的方法借助构建的初始微博情感先验知识,自动抽取出微博语料中的情感对象知识元,进而通过去重等程序获取最终的微博领域情感知识元集,最后利用XML格式文档将获取的微博情感知识存储起来以便使用。通过使用不同领域的微博语料进行实验,证明该方法的可行性和有效性,为后续微博情感分析提供支持。论文还提出了基于异态集成学习的微博情感分析方法,该方法针对微博数据来源广泛,涉及领域较多的特点,选用微博情感分析中常用的四类分类器进行集成,集成方法在原来简单投票法的基础上进行了改进,引入了贝叶斯决策的方法进行投票,利用各个分类器训练后的混淆矩阵作为先验知识进行决策分类。微博特征稀疏的特点给微博情感分析带来困难,基于这个原因,我们利用微博情感知识集对其特征进行了扩充,充分利用微博社交化的特点,增加了微博结构特征,提高了情感评价对象识别的准确性。为了研究多个组合特征和不同分类器集成对微博情感分析的影响,论文采用“控制变量法”的思想进行了交叉实验,实验结果表明了本文提出的微博扩充特征和集成方法对微博情感分析是有效的和可行的。
【关键词】:微博 情感分析 知识元 微博情感知识集 集成学习 贝叶斯决策
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-15
- 1.1 研究背景和选题意义9-10
- 1.2 拟解决的科学问题10-11
- 1.3 研究内容与技术路线11-14
- 1.3.1 研究内容11-12
- 1.3.2 技术路线12-14
- 1.4 论文的内容组织结构14-15
- 2 国内外研究现状15-23
- 2.1 基于词典法的微博情感分析15-18
- 2.2 基于机器学习的微博情感分析18-19
- 2.3 基于句法分析和规则的微博情感分析19-21
- 2.4 研究述评21-23
- 3 微博情感知识元的抽取和微博情感知识集的构建23-39
- 3.1 微博领域中的知识元23-26
- 3.2 中文微博不同领域数据获取26-27
- 3.2.1 语料获取26
- 3.2.2 数据预处理26-27
- 3.3 基于CRFs模型的微博情感知识元自动抽取27-32
- 3.3.1 CRFs模型27
- 3.3.2 基于CRFs的微博情感对象知识元抽取算法27-28
- 3.3.3 抽取特征选取和模版设计28-32
- 3.4 抽取实验分析与结果处理32-39
- 3.4.1 实验设计与评价32-34
- 3.4.2 微博情感评价对象知识元集后处理34-36
- 3.4.3 微博情感知识元集构建36-39
- 4 基于异态集成学习的中文微博情感分析39-58
- 4.1 集成学习方法39-41
- 4.1.1 算法的有效性分析40
- 4.1.2 异态集成学习方法40-41
- 4.2 基于微博情感知识元的特征表示方法41-42
- 4.3 微博预处理42-47
- 4.3.1 特殊符号处理42-44
- 4.3.2 干扰信息处理44
- 4.3.3 特征提取和扩充44-47
- 4.4 微博情感分析模型47-51
- 4.4.1 常见分类模型47-48
- 4.4.2 基于异态集成分类器的微博情感分析48-50
- 4.4.3 微博情感分析的实现50-51
- 4.5 实验结果及分析51-58
- 4.5.1 实验数据51-53
- 4.5.2 实验设计和结果评价53-58
- 5. 总结与展望58-59
- 参考文献59-63
- 附录A 微博情感对象知识元抽取结果(部分)63-66
- 附录B 微博情感表情符号抽取结果(频次排名前50)66-68
- 攻读硕士学位期间发表学术论文及科研情况68-69
- 致谢69-70
【参考文献】
中国硕士学位论文全文数据库 前1条
1 刘程;基于随机森林的新闻网页分类系统应用研究[D];西南财经大学;2013年
,本文编号:970122
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/970122.html