基于酒店评论数据的情感分析

发布时间:2021-03-08 03:23
  随着互联网技术在我国的深入发展以及现代化通讯工具的普及,网络已成为人民日常生活必不可少的一部分。越来越多的网民在诸如微信、微博等平台上达到足不出户就可以全面获知天下事,同时很方便快捷地针对热点事件、公共服务等发表自己的评论及观点。近年来,大部分评论数据信息来源于社交网络、政府部门和相关商家,从这些评论数据中我们不仅能够直观地感受到用户的情绪,更能从负面评论数据中挖掘安全隐患信息从而扼制事故的发生,单就酒店等公众服务业来讲,若能提前从评论数据中发现安全隐患,做好防护措施,就能相当大的程度避免事故的发生。本文根据酒店商品评论分析系统需求,进行系统总体架构设计,采用爬虫技术解决评论数据获取问题,并对所爬取的评论数据进行分词等预处理工作。本文提出Attention机制与神经网络相结合的酒店评论数据情感分析模型,较之word2vec模型与机器学习相结合的方法,评论分类的准确率、精确度、召回率都有相应的提高。本文的主要工作包括:(1)设计了酒店评论数据分析系统框架,并进行分模块实现。阐述了系统执行过程,设计并实现了评论数据获取模块、评论数据储存模块、评论数据预处理模块、结果展示模块。(2)利用Py... 

【文章来源】:上海应用技术大学上海市

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于酒店评论数据的情感分析


含有安全隐患信息的消极评论数据

曲线,曲线,平均精度,阈值


图 2.1 ROC 曲线和相关比率Fig.2.1 ROC curve and correlation ratio如图 2.1(b)所示,通过给定的阈值θ,假定大于此值为负例,小于此值为正例。表示本身是正例预测也为正例,FN 表示本身是正例预测是负例,FP 表示本身是负测为正例,TN 表示本身是负例预测也为负例。若θ起始给定的值异常大,则所有全部预测正确 TPR 和 FPR 都等于 1 即过图 2.1(a)中(1,1)点,反之 TPR 和 FPR于 0 即经过(0,0)点,由此当θ不断移动时绘制出来的图形如图 2.1(a)所示即OC 曲线。其对角线表示预测是随机猜测的,曲线下方的面积就可以度量模型的性坏即 AUC(Area Under Curve),阈值一般选为图形反对角线与 ROC 曲线相交点图中 equal error rate,AUC 的值在 0.5 至 1 之间,越大说明效果越好。此外,ROC还能用来计算“均值平均精度”(Mean Average Precision),此方法通过改变阈值择其中最好的结果所得到的平均精度(PPV)。 模型调优方法.1 过拟合

曲线,过拟合


0)点,由此当θ不断移动时绘制出来的图形如图 2.1(对角线表示预测是随机猜测的,曲线下方的面积就可以度量Area Under Curve),阈值一般选为图形反对角线与 ROC 曲error rate,AUC 的值在 0.5 至 1 之间,越大说明效果越好。此算“均值平均精度”(Mean Average Precision),此方法通过的结果所得到的平均精度(PPV)。方法质是一个求数学优化问题,即按照经验最小化策略如图 2.点与拟合值之差的平方和最小法,如果拟合函数足够好,其于多个点,总能找到一个足够高次数的多次项式,使得所有过强的拟合能力往往会使得样本之外的函数值偏离期望目标能,这也就是我们常说的过拟合[28]。拟合的方法有:early stopping 、数据集扩增、正则化等。

【参考文献】:
期刊论文
[1]基于权值变化的BP神经网络自适应学习率改进研究[J]. 朱振国,田松禄.  计算机系统应用. 2018(07)
[2]基于卷积神经网络的文献自动分类研究[J]. 郭利敏.  图书与情报. 2017(06)
[3]基于特征本体的微博产品评论情感分析[J]. 唐晓波,兰玉婷.  图书情报工作. 2016(16)
[4]基于语义文法的网络舆情精准分析方法研究[J]. 侯圣峦,刘磊,曹存根.  计算机科学. 2014(10)
[5]利用word2vec对中文词进行聚类的研究[J]. 郑文超,徐鹏.  软件. 2013(12)
[6]MySQL数据库存储引擎探析[J]. 胡雯,李燕.  软件导刊. 2012(12)
[7]Web文本预处理技术探析[J]. 阳小兰,钱程,赵海廷.  电脑知识与技术. 2010(29)
[8]文本情感分析[J]. 赵妍妍,秦兵,刘挺.  软件学报. 2010(08)
[9]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发.  电脑知识与技术. 2010(15)
[10]网络舆情的内涵及主要特点[J]. 姜胜洪.  理论界. 2010(03)

硕士论文
[1]词向量的动态加权及分布式学习策略[D]. 徐惊秋.北京交通大学 2018
[2]基于语义分析的文本相似性度量研究及应用[D]. 周萍.武汉工程大学 2017
[3]基于CNN的自然场景中文文本定位与识别方法研究[D]. 饶钦程.华南理工大学 2017
[4]基于LDA和Word2Vec的推荐算法研究[D]. 董文.北京邮电大学 2015



本文编号:3070324

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3070324.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2435a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com