当前位置:主页 > 科技论文 > 软件论文 >

基于Stacking的酒店评论情感分析研究

发布时间:2021-08-14 23:52
  随着互联网的迅速发展,人们经常在网上预订酒店。但是网络上的酒店评论良莠不齐,面对五花八门的信息时,仅仅依靠人工浏览是费时且费力的。通过使用机器学习领域的某些方法,对大量的酒店评论信息进行情感分析,这不仅可以极大的方便消费者网上预订酒店,而且对于酒店商家和互联网平台来说也是至关重要的。对于酒店评论的情感分析,常用的TF-IDF加权方法只片面的关注了特征的词频和文档数。同时,在分类过程中单一的机器学习模型也往往由于某种缺陷,影响文本的分类结果。因此,本文在现有基础上改进了传统的TF-IDF加权方法,提出了一种基于集成的情感分类模型。本文的主要工作如下:(1)对酒店评论文本进行预处理。首先是简单的清理酒店评论文本,包括去重、去掉无意义的字符、正确划分评论的所属类别等。然后为了在酒店评论的情感分析中,准确区分评论中的情感极性词,构建了由通用的已有词典和人工抽取的酒店情感词组成的情感词典。最后针对分词中存在着情感词识别和新词识别这两个问题,引入自定义词典对评论文本进行了分词操作。(2)使用Word2Vec对预处理后的酒店评论进行特征提取,得到文本的特征向量。由于传统的TF-IDF加权方法忽略了特... 

【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

基于Stacking的酒店评论情感分析研究


训练文本的不同划分x

原理图,原理,超平面,最优超平面


重庆大学硕士学位论文2情感分析的相关技术12C中只有B可以成功区分不同类型的文本成为超平面。图2.3训练文本的不同划分图2.4SVM的原理Figure2.3DifferentdivisionsoftrainingtextsFigure2.4TheprincipleofSVM通常分类超平面很多,但是最优超平面只有一个,同时最优超平面的两侧存在两个互相平行的超平面,作为间隔边界来判断样本的分类。最优超平面的分类间隔必须最大,也就是可以使两个边界之间的距离达到最大,这样在对文本进行分类时,不仅能成功分离正反两类样本,同时还能以最大的概率区分模糊的实例点,从而提高分类的准确率。如图2.4所示,C是超平面,A和B则分别位于C两侧且互相平行。假设以x={x1,…,xn},y={y1,…,yn}y∈{1,1}作为样本集,超平面C的计算公式为:wx+b=0(2.1)参数w和b分别为法向量和截距。A和B作为间隔边界,对样本进行分类:wxi+b≥+1ifyi=+1(2.2)wxi+b≤1ifyi=1(2.3)即yi[(wxi)+b]≥+1i=1,2,…,n(2.4)样本点(xi,yi)到超平面的最小几何间隔为:γ=mini=1,2,…,nyi(w|w|xi+b|w|)(2.5)支持向量机的目的是求出最优超平面,使得几何间隔最大从而分隔不同类型的样本,所以公式2.5可以进一步转换为:maxw,bγs.t.yiw|w|xi+b|w|≥γ,i=1,2,…,n(2.6)结合SVM的优化思想(考虑到不同形式的间隔关联以及变量||w||的最大化和ABCxyABCxyd=2/||w||

基于Stacking的酒店评论情感分析研究


KNN的分类结果

【参考文献】:
期刊论文
[1]基于半监督学习的微博情感分析[J]. 陈珂,黎树俊,谢博.  计算机与数字工程. 2018(09)
[2]基于依存句法关系的文本情感分类研究[J]. 张庆庆,刘西林.  计算机工程与应用. 2015(22)
[3]决策树算法综述[J]. 谢妞妞.  软件导刊. 2015(11)
[4]一种语句级细粒度情感倾向性分析算法研究[J]. 黄高峰,周学广.  计算机应用与软件. 2015(04)
[5]基于主题的文本句情感分析[J]. 王磊,苗夺谦,张志飞,余鹰.  计算机科学. 2014(03)
[6]面向用户观点分析的多分类器集成和优化技术[J]. 林煜明,朱涛,王晓玲,周傲英.  计算机学报. 2013(08)
[7]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟.  北京大学学报(自然科学版). 2013(01)

硕士论文
[1]基于深度学习中文分词的研究[D]. 王梦鸽.西安邮电大学 2018
[2]用Stacking算法堆积随机森林、GBDT、SVM、Adaboost等七种算法的多因子选股模型[D]. 李佩琛.浙江工商大学 2018
[3]Stacking算法的研究及改进[D]. 徐慧丽.华南理工大学 2018
[4]基于stacking组合的文本情感分类研究[D]. 袁策书.华中师范大学 2017
[5]面向中文产品评论数据的情感分析模型设计及评估[D]. 李洋.北京邮电大学 2017



本文编号:3343416

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3343416.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48074***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com