中文旅游评论的情感分析研究
本文关键词:中文旅游评论的情感分析研究,由笔耕文化传播整理发布。
【摘要】:随着全球旅游业快速发展和人们生活水平的提高,旅游逐渐成为人们闲暇时问的生活方式。然而,每个游客都会面临旅行目的地景点或酒店的选择决策问题。国内外一些知名的旅游网站上均包含丰富的旅游评论信息,为广大游客的选择决策提供重要依据。对这些用户发布的反馈和评价进行情感分析研究,无论在理论分析和实际应用上都具有重要意义。目前国内旅游领域的情感分析研究不够深入,未能考虑到中文的复杂多样性和评论集的不平衡性。针对以上问题,本文以携程网为语料源,面向中文旅游评论进行了情感分析研究。由于语料集呈现较大的不平衡性,为消除不平衡因素的影响,本文主要分为平衡集和不平衡集的情感分类研究两部分。在平衡集的研究中,本文在特征提取层面提出了两种改进方法:一是基于旅游主题词+情感词序列的特征提取算法,二是基于中文句式的特征改进方法。在此基础上,本文构建了SVM分类模型,对以上两种方法的有效性进行了验证。实验结果表明,改进方法提取了旅游维度各属性的特征及情感意见词,降低了特征的维度;能够有效识别复杂评论中真正表达的情感。在不平衡集的研究中,本文采用过抽样算法合成负面样本,降低数据集的不平衡性。本文讨论了SMOTE和BSMOTE算法的局限性,比如忽略了孤立点的影响,采样倍率不合理导致分类性能下降。针对这两个问题,本文提出了MSMOTE算法,并与前两种算法的性能进行了对比分析。实验结果表明,MSMOTE算法有效地提高了负面样本的分类性能。本文建立了适应旅游领域的情感分类模型,降低了数据不平衡性对情感分类的影响,并提高了未知评论的分类准确率,可以帮助游客迅速识别评论的情感倾向,并为旅行目的地的满意度分析提供理论依据。
【关键词】:情感分析 特征提取 SVM分类 不平衡集 过抽样算法
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-16
- 1.1 研究背景与意义12-13
- 1.2 国内外研究现状13-14
- 1.2.1 国外研究现状13
- 1.2.2 国内研究现状13-14
- 1.2.3 旅游领域的研究现状14
- 1.3 本文的工作14-15
- 1.4 本文的章节结构15-16
- 2 情感分析相关理论概述16-28
- 2.1 情感分析的定义16
- 2.2 情感分类的基本原理16-18
- 2.2.1 基于机器学习的情感分类16-17
- 2.2.2 基于语义分析的情感分类17-18
- 2.3 情感分类的主要步骤及技术18-25
- 2.3.1 文本预处理18-19
- 2.3.2 文本的表示19-20
- 2.3.3 特征选择20-22
- 2.3.4 文本特征加权22-23
- 2.3.5 SVM分类算法23-25
- 2.4 文本分类评价标准25-27
- 2.5 本章小结27-28
- 3 中文旅行评论情感分析28-47
- 3.1 中文语料的获取28-31
- 3.1.1 评论指标的构建28-29
- 3.1.2 在线评论的收集29-31
- 3.2 语料清理和人工分类31-33
- 3.3 情感分析实验33-36
- 3.3.1 中文分词和词性标注33-34
- 3.3.2 SVM分类实验34-36
- 3.3.3 实验结果及分析36
- 3.4 基于序列化规则的改进36-41
- 3.4.1 主题词与情感词37-38
- 3.4.2 序列化规则38-39
- 3.4.3 实验结果及分析39-41
- 3.5 基于中文句式的改进41-46
- 3.5.1 复杂句式和总结句42-43
- 3.5.2 实验方案设计43-44
- 3.5.3 实验结果及分析44-46
- 3.6 本章小结46-47
- 4 不平衡数据情感分类47-63
- 4.1 不平衡数据分类的研究方法47-49
- 4.1.1 欠抽样方法48-49
- 4.1.2 过抽样方法49
- 4.2 基于SMOTE算法的不平衡分类49-53
- 4.2.1 SMOTE算法描述50-51
- 4.2.2 基于SMOTE算法的分类实验51-53
- 4.2.3 SMOTE算法的优缺点53
- 4.3 基于BSMOTE算法的不平衡分类53-57
- 4.3.1 BSMOTE算法描述54-55
- 4.3.2 基于BSMOTE算法的分类实验55-57
- 4.4 改进的BSMOTE算法57-62
- 4.4.1 MSMOTE算法描述57-59
- 4.4.2 合成倍率设置59-60
- 4.4.3 实验结果与分析60-62
- 4.5 本章小结62-63
- 5 总结与展望63-65
- 5.1 论文总结63
- 5.2 不足与展望63-65
- 参考文献65-67
- 作者简历及攻读硕士/博士学位期间取得的研究成果67-69
- 学位论文数据集69
【参考文献】
中国期刊全文数据库 前8条
1 覃国蓉;叶志成;庄槟豪;蔡哲聪;;旅游网络评论情感分析方法研究及系统实现[J];深圳信息职业技术学院学报;2015年03期
2 邸鹏;李爱萍;段利国;;基于转折句式的文本情感倾向性分析[J];计算机工程与设计;2014年12期
3 傅向华;刘国;郭岩岩;郭武彪;;中文博客多方面话题情感分析研究[J];中文信息学报;2013年01期
4 王振宇;吴泽衡;胡方涛;;基于HowNet和PMI的词语情感极性计算[J];计算机工程;2012年15期
5 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
6 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期
7 李维杰;;情感分析与认知[J];计算机科学;2010年07期
8 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
中国博士学位论文全文数据库 前2条
1 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年
2 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
中国硕士学位论文全文数据库 前5条
1 崔连超;互联网评论文本情感分析研究[D];山东大学;2015年
2 樊小超;基于机器学习的中文文本主题分类及情感分类研究[D];南京理工大学;2014年
3 韩秋玲;过抽样算法在不平衡数据学习中的应用[D];华南理工大学;2011年
4 张岩;基于SVM算法的文本分类器的实现[D];电子科技大学;2011年
5 曹斌;互联网上旅游评论的情感分析及其有用性研究[D];哈尔滨工业大学;2008年
本文关键词:中文旅游评论的情感分析研究,由笔耕文化传播整理发布。
,本文编号:295119
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/295119.html