基于领域词典与机器学习的中文评论情感分析
发布时间:2021-03-04 07:45
随着互联网日新月异的发展,以微博、论坛和电商为代表的线上平台正在崛起。人们越来越习惯于在这些平台上发表对实事热点的观点以及对产品的使用感受,这一现象使得评论数据爆炸式增长。在这些评论中,大量对于商家、卖家以及政府有价值的情感信息蕴含其中,如何提取并应用这些情感信息使得情感分析应运而生。基于词典的情感分析方法作为情感分析最基础的方法,对于特定领域通常没有非常合适的词典可以使用,其打分规则也有待优化。因此本文基于SO-PMI算法构建了酒店领域情感词典,基于中文语法结构提出一套打分规则。对预处理之后的数据结合多种词典进行情感权值计算,按照打分规则得到句子情感得分从而判断句子情感极性。实验证明,所提出的基于情感词典的情感分析方法有较高的准确率。在中文文本中语境复杂,常常存在一词多义的现象,使得基于情感词典的情感分析方法会产生一定的误差。深度学习作为机器学习的高性能方法,可以在语境复杂的中文文本中有更好的表现力,而取得这样的表现是在构造出优秀的中文词向量的前提下。因此本文基于维基中文数据集,利用Word2Vec工具构造了一套适用于所有中文的词向量。在对比实验中,所构建出的中文词向量具有不错的表现...
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
结巴分词后部分展示
4.二层神经网络核函数基本模型为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化图 4.6 SVM 模型特点验 实验步骤验的开发环境为 windows下的Python2.7 版本,实验的实现需要加载例如:Jieba,learn,Pandas,Numpy 等许多著名的第三方模块。实验采用中科院发布的中文停与第三章相同的中文酒店评论集,包含 5000 条积极评论与 5000 条消极评论。次实验采用 Jieba 分词对语料进行分词处理,在处理之前需要对语料以及停词文理,再对文本进行字母、特殊符号及数字的处理,效果如下图所示:
南京邮电大学专业学位硕士研究生学位论文 第四章中文词向量的构建方法在分词完成后,读取中文停用词表,遍历分词后的句子,将每个分词后的词语放入表中进行匹配,如果此词在表中存在则替换为空,即可完成去停用词步骤。经过上述操作后得到正负评论语料的特征词,为使模型的输入为计算机语言,将由词汇组成的每条文本采用 Word2Vec 词向量模型转化成向量。特征词向量的选取需要基于已训练完成的词向量模型,本实验拟从维基中文大型语料中生成词向量,从而抽取酒店评论语料的特征值向量。获取特征词向量的主要步骤如下:①读取模型词向量矩阵;②遍历每条评论中的每个词汇,在模型词向量矩阵中寻找到当前词汇的向量,每条评论得到一个二维矩阵。行为词的数量,列为模型之前设定的维数;③把得到的矩阵进行均值计算作为当前评论语句的特征词向量;④在所有评论语句计算完成后,拼接语句类别代表的值,写入 csv 文件。获得的词向量部分截图如下图所示:
【参考文献】:
期刊论文
[1]基于词向量与句法树的中文句子情感分析[J]. 相若晨,孙美凤. 计算机与现代化. 2016(08)
[2]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan. Chinese Journal of Electronics. 2016(04)
[3]基于word embedding和CNN的情感分类模型[J]. 蔡慧苹,王丽丹,段书凯. 计算机应用研究. 2016(10)
[4]基于POS-CBOW语言模型的相似词分析[J]. 阮冬茹,潘洪岩,高凯. 河北科技大学学报. 2015(05)
[5]基于极性转移和LSTM递归网络的情感分析[J]. 梁军,柴玉梅,原慧斌,高明磊,昝红英. 中文信息学报. 2015(05)
[6]基于平滑SO-PMI算法的微博情感词典构建方法研究[J]. 杜锐,朱艳辉,田海龙,刘璟,马进. 湖南工业大学学报. 2015(05)
[7]利用word2vec对中文词进行聚类的研究[J]. 郑文超,徐鹏. 软件. 2013(12)
[8]中文微博情感分析研究综述[J]. 周胜臣,瞿文婷,石英子,施询之,孙韵辰. 计算机应用与软件. 2013(03)
[9]基于权值算法的中文情感分析系统研究与实现[J]. 张昊旻,石博莹,刘栩宏. 计算机应用研究. 2012(12)
[10]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
博士论文
[1]支持向量机算法的研究及其应用[D]. 范昕炜.浙江大学 2003
硕士论文
[1]基于情感词典拓展和词向量的中文情感分析技术的研究[D]. 丁卜建.辽宁大学 2016
[2]基于Word2Vec语言模型与图核设计的文本分类研究[D]. 袁艳红.西南大学 2016
[3]基于深度学习的情感词向量及文本情感分析的研究[D]. 张志华.华东师范大学 2016
[4]基于word2vec和SVMperf的网络中文文本评论信息情感分类研究[D]. 苏增才.河北科技大学 2015
[5]基于Twitter的情感分析相关问题研究[D]. 朱婧.武汉理工大学 2014
[6]中文文本分类中互信息特征选择方法研究[D]. 邓彩凤.西南大学 2011
本文编号:3062834
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
结巴分词后部分展示
4.二层神经网络核函数基本模型为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化图 4.6 SVM 模型特点验 实验步骤验的开发环境为 windows下的Python2.7 版本,实验的实现需要加载例如:Jieba,learn,Pandas,Numpy 等许多著名的第三方模块。实验采用中科院发布的中文停与第三章相同的中文酒店评论集,包含 5000 条积极评论与 5000 条消极评论。次实验采用 Jieba 分词对语料进行分词处理,在处理之前需要对语料以及停词文理,再对文本进行字母、特殊符号及数字的处理,效果如下图所示:
南京邮电大学专业学位硕士研究生学位论文 第四章中文词向量的构建方法在分词完成后,读取中文停用词表,遍历分词后的句子,将每个分词后的词语放入表中进行匹配,如果此词在表中存在则替换为空,即可完成去停用词步骤。经过上述操作后得到正负评论语料的特征词,为使模型的输入为计算机语言,将由词汇组成的每条文本采用 Word2Vec 词向量模型转化成向量。特征词向量的选取需要基于已训练完成的词向量模型,本实验拟从维基中文大型语料中生成词向量,从而抽取酒店评论语料的特征值向量。获取特征词向量的主要步骤如下:①读取模型词向量矩阵;②遍历每条评论中的每个词汇,在模型词向量矩阵中寻找到当前词汇的向量,每条评论得到一个二维矩阵。行为词的数量,列为模型之前设定的维数;③把得到的矩阵进行均值计算作为当前评论语句的特征词向量;④在所有评论语句计算完成后,拼接语句类别代表的值,写入 csv 文件。获得的词向量部分截图如下图所示:
【参考文献】:
期刊论文
[1]基于词向量与句法树的中文句子情感分析[J]. 相若晨,孙美凤. 计算机与现代化. 2016(08)
[2]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan. Chinese Journal of Electronics. 2016(04)
[3]基于word embedding和CNN的情感分类模型[J]. 蔡慧苹,王丽丹,段书凯. 计算机应用研究. 2016(10)
[4]基于POS-CBOW语言模型的相似词分析[J]. 阮冬茹,潘洪岩,高凯. 河北科技大学学报. 2015(05)
[5]基于极性转移和LSTM递归网络的情感分析[J]. 梁军,柴玉梅,原慧斌,高明磊,昝红英. 中文信息学报. 2015(05)
[6]基于平滑SO-PMI算法的微博情感词典构建方法研究[J]. 杜锐,朱艳辉,田海龙,刘璟,马进. 湖南工业大学学报. 2015(05)
[7]利用word2vec对中文词进行聚类的研究[J]. 郑文超,徐鹏. 软件. 2013(12)
[8]中文微博情感分析研究综述[J]. 周胜臣,瞿文婷,石英子,施询之,孙韵辰. 计算机应用与软件. 2013(03)
[9]基于权值算法的中文情感分析系统研究与实现[J]. 张昊旻,石博莹,刘栩宏. 计算机应用研究. 2012(12)
[10]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
博士论文
[1]支持向量机算法的研究及其应用[D]. 范昕炜.浙江大学 2003
硕士论文
[1]基于情感词典拓展和词向量的中文情感分析技术的研究[D]. 丁卜建.辽宁大学 2016
[2]基于Word2Vec语言模型与图核设计的文本分类研究[D]. 袁艳红.西南大学 2016
[3]基于深度学习的情感词向量及文本情感分析的研究[D]. 张志华.华东师范大学 2016
[4]基于word2vec和SVMperf的网络中文文本评论信息情感分类研究[D]. 苏增才.河北科技大学 2015
[5]基于Twitter的情感分析相关问题研究[D]. 朱婧.武汉理工大学 2014
[6]中文文本分类中互信息特征选择方法研究[D]. 邓彩凤.西南大学 2011
本文编号:3062834
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3062834.html