基于深度学习的酒店评论情感倾向分析
发布时间:2021-06-03 19:17
随着移动手机的普及以及移动网络的快速发展,从3G到4G,再到现在普及的5G网络,更多人选择通过手机移动端来收发信息。在现如今网络信息发达和智能手机普及的大环境下,人们对酒店的住宿选择可以随时随地通过手机进行操作,这种客户和酒店通过网络互动关联的方式,能够在酒店预定平台上产生海量的酒店文本评价信息。用户在通过手机挑选酒店时,往往是通过住客在酒店留下的评论作为重要的选择依据。对于商家来说,这些评论数据则是很好放映酒店的优缺点,是优化商家酒店的重要信息。所以准确分析这类型数据无论对商家还是消费者都有着重要的意义。本文主要的研究工作如下:第一,本文首先对现有的情感倾向分析技术进行了介绍和总结,同时对常用的基于深度学习的情感倾向分析方法进行详细的介绍。其次,结合酒店评论的文本特点,发现现有人工智能模型存在的忽视文本情感表达结构的局部特征、缺乏区别处理信息的能力的问题。第二,针对文本情感表达结构的重要局部特征,本文提出双通道RNN三元块模型。模型中RNN三元块主要捕获文本情感表达结构的局部特征,加强词语之间的联系。由于在文本情感表达结构局部特征构建的过程中,容易出现捕获错误或者漏捕的情况,创新地使...
【文章来源】:广东工业大学广东省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
tanh函数及导函数图像
第三章反向传播的相关理论193-3。由下图3-3可知ReLU函数的导函数在正数部分的导函数恒等于1,使得每层的传递可以得到相同的更新速度,保证模型快速收敛,不会因为连乘的操作而导致梯度消失。但在负数部分的导数恒等于0,这样会导致部分神经元无法激活,权重无法被继续更新的情况。为解决这问题,He等人提出PReLU(ParametricRectifiedLinearUnit),其计算的方法并没有十分复杂,只在原来ReLU函数的基础上增加了一个超参数,其中0,而且是可以学习的参数[37]。图3-3ReLu函数及导函数图像Figure3-3ReLufunctionandderivativefunctionimage针对梯度爆炸问题,其主要原因是参数U数值偏大,通过连乘操作后梯度更新量是指数级增长,造成梯度爆炸。那么如果能够适当减少梯度的增长就可以避免梯度爆炸的问题,因此可以通过梯度剪裁(clipgradients)的方法把参数U有效控制在一定范围内[38]。除了上述处理RNN模型梯度问题的方法外,还有其他方法。如批量标准化(BatchNormalization),该方法是在2015年由Google公司提出的[39]。其主要作用是把因为网络加深造成激活函数的输入分布往取值区间两端靠近的问题通过一定的规范化手段,把输入值的分布强行拉回到均值为0,方差为1的标准正态分布,这样做的目的是使得激活函数的输入落在敏感的区域。还有能通过改变模型的结构缓解梯度问题,就是上一章2.2节提到LSTM模型。
第五章实验和分析33图5-1文档长度数量分布图Figure5-1Documentlengthdistribution由上图可知,该数据集的文档篇幅长度在0-20的区间中的文档数最多,高达3755个,占整个数据集的约37.55%;其次,文档篇幅长度在20-40的区间中文档数量有2954个,占整个数据集的29.85%;而文档篇幅长度在40-60的区间中文档数量有1484个,占整个数据集的14.84%。统计得出文档篇幅长度在0-60的区间则有文档数8193个,占整个数据集的81.93%。整个数据集中,有80%文档篇幅长度在0-60区间中,只有少数的句子偏长,而整个数据集的文档篇幅平均长度约为41个词语。5.2词向量设置运用数据集训练word2vec词向量,词向量的维度不同,其词向量所携带的信息特征会有所不同,为验证本文提出的模型在酒店评价情感倾向分析任务的有效性,以及找出在该任务中最优的表现效果,因此分别训练维度为100、200和300的词向量。实验分为三组,每组采用不同的词向量,然后用RNN模型、LSTM模型、双通道RNN三元块模型分别对酒店评论数据进行性格倾向分析。对于词向量的训练,采用gensim中的word2vecAPI来训练模型,分别训练三
【参考文献】:
期刊论文
[1]基于双语信息和标签传播算法的中文情感词典构建方法[J]. 李寿山,李逸薇,黄居仁,苏艳. 中文信息学报. 2013(06)
[2]基于词典和规则集的中文微博情感分析[J]. 王志涛,於志文,郭斌,路新江. 计算机工程与应用. 2015(08)
[3]中文文本情感词典构建方法[J]. 阳爱民,林江豪,周咏梅. 计算机科学与探索. 2013(11)
[4]基于SVM的文本词句情感分析[J]. 杨经,林世平. 计算机应用与软件. 2011(09)
[5]Web文本预处理技术探析[J]. 阳小兰,钱程,赵海廷. 电脑知识与技术. 2010(29)
[6]基于向量空间模型的文本聚类算法[J]. 姚清耘,刘功申,李翔. 计算机工程. 2008(18)
[7]混合激活函数对BP算法收敛速度的影响[J]. 周玲,孙军,袁宇波,丁晓群. 河海大学学报(自然科学版). 1999(05)
硕士论文
[1]词向量的动态加权及分布式学习策略[D]. 徐惊秋.北京交通大学 2018
[2]基于深度学习的微博评论情感倾向性分析[D]. 胡西祥.哈尔滨工业大学 2017
[3]基于LSTM的语义关系分类研究[D]. 胡新辰.哈尔滨工业大学 2015
本文编号:3211095
【文章来源】:广东工业大学广东省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
tanh函数及导函数图像
第三章反向传播的相关理论193-3。由下图3-3可知ReLU函数的导函数在正数部分的导函数恒等于1,使得每层的传递可以得到相同的更新速度,保证模型快速收敛,不会因为连乘的操作而导致梯度消失。但在负数部分的导数恒等于0,这样会导致部分神经元无法激活,权重无法被继续更新的情况。为解决这问题,He等人提出PReLU(ParametricRectifiedLinearUnit),其计算的方法并没有十分复杂,只在原来ReLU函数的基础上增加了一个超参数,其中0,而且是可以学习的参数[37]。图3-3ReLu函数及导函数图像Figure3-3ReLufunctionandderivativefunctionimage针对梯度爆炸问题,其主要原因是参数U数值偏大,通过连乘操作后梯度更新量是指数级增长,造成梯度爆炸。那么如果能够适当减少梯度的增长就可以避免梯度爆炸的问题,因此可以通过梯度剪裁(clipgradients)的方法把参数U有效控制在一定范围内[38]。除了上述处理RNN模型梯度问题的方法外,还有其他方法。如批量标准化(BatchNormalization),该方法是在2015年由Google公司提出的[39]。其主要作用是把因为网络加深造成激活函数的输入分布往取值区间两端靠近的问题通过一定的规范化手段,把输入值的分布强行拉回到均值为0,方差为1的标准正态分布,这样做的目的是使得激活函数的输入落在敏感的区域。还有能通过改变模型的结构缓解梯度问题,就是上一章2.2节提到LSTM模型。
第五章实验和分析33图5-1文档长度数量分布图Figure5-1Documentlengthdistribution由上图可知,该数据集的文档篇幅长度在0-20的区间中的文档数最多,高达3755个,占整个数据集的约37.55%;其次,文档篇幅长度在20-40的区间中文档数量有2954个,占整个数据集的29.85%;而文档篇幅长度在40-60的区间中文档数量有1484个,占整个数据集的14.84%。统计得出文档篇幅长度在0-60的区间则有文档数8193个,占整个数据集的81.93%。整个数据集中,有80%文档篇幅长度在0-60区间中,只有少数的句子偏长,而整个数据集的文档篇幅平均长度约为41个词语。5.2词向量设置运用数据集训练word2vec词向量,词向量的维度不同,其词向量所携带的信息特征会有所不同,为验证本文提出的模型在酒店评价情感倾向分析任务的有效性,以及找出在该任务中最优的表现效果,因此分别训练维度为100、200和300的词向量。实验分为三组,每组采用不同的词向量,然后用RNN模型、LSTM模型、双通道RNN三元块模型分别对酒店评论数据进行性格倾向分析。对于词向量的训练,采用gensim中的word2vecAPI来训练模型,分别训练三
【参考文献】:
期刊论文
[1]基于双语信息和标签传播算法的中文情感词典构建方法[J]. 李寿山,李逸薇,黄居仁,苏艳. 中文信息学报. 2013(06)
[2]基于词典和规则集的中文微博情感分析[J]. 王志涛,於志文,郭斌,路新江. 计算机工程与应用. 2015(08)
[3]中文文本情感词典构建方法[J]. 阳爱民,林江豪,周咏梅. 计算机科学与探索. 2013(11)
[4]基于SVM的文本词句情感分析[J]. 杨经,林世平. 计算机应用与软件. 2011(09)
[5]Web文本预处理技术探析[J]. 阳小兰,钱程,赵海廷. 电脑知识与技术. 2010(29)
[6]基于向量空间模型的文本聚类算法[J]. 姚清耘,刘功申,李翔. 计算机工程. 2008(18)
[7]混合激活函数对BP算法收敛速度的影响[J]. 周玲,孙军,袁宇波,丁晓群. 河海大学学报(自然科学版). 1999(05)
硕士论文
[1]词向量的动态加权及分布式学习策略[D]. 徐惊秋.北京交通大学 2018
[2]基于深度学习的微博评论情感倾向性分析[D]. 胡西祥.哈尔滨工业大学 2017
[3]基于LSTM的语义关系分类研究[D]. 胡新辰.哈尔滨工业大学 2015
本文编号:3211095
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3211095.html