当前位置:主页 > 经济论文 > 国际贸易论文 >

基于电商商品评论文本的情感分析研究

发布时间:2020-04-10 04:05
【摘要】:海量电商商品评价信息中蕴含着巨大商业价值。同时,大量的电商商品评论信息给人工甄别和选择带来了极大的困难,因此,如何采用高效的情感分析技术使计算机能自动地对电商商品评论信息进行情感分类,给购物者和商品生产企业提供更加准确的评论情感信息,帮助用户快速了解商品口碑,正确选择商品,帮助企业改善商品品质。本文的主要目的是对电商商品评论进行情感分析,主要研究工作包括:1、商品评论的预处理工作。选取某电商网站上的手机评论作为研究对象,使用爬虫进行数据采集,对获取的评论数据进行文本的预处理工作,主要包括文本初筛过滤、数据清洗、中文分词、词性标注,去停用词等,为后续评论文本的情感分析做准备。2、特征选择和特征权重。首先,特征选择是情感分类过程中非常重要的一个环节,选取合适的特征有利于提高情感分类的效果。通过对各种特征选择算法的分析,本文以信息增益(IG)算法为基础进行适当地改进,把特征在类内和类外的频度作为特征选择的一个指标加入到信息增益值的计算中;其次,对于特征权重,本文基于TF-IDF算法进行改进,同样加入特征在类内和类外的频度进行特征权重的计算。实验表明,改进的特征选择和特征权重算法提高了分类的正确率。最后,将两种改进算法进行组合,完成特征选取和特征权重的工作,并运用在后续的情感分类中。3、多重决策组合分类模型构建。基于三支决策思想提出了一种多重决策组合分类器。采用集成学习的思想,将单分类器进行适当组合。使用支持向量机分类器对文本集进行第一次三支决策,对于产生的第边界域Ⅰ使用k NN算法进行第二次三支决策,对于边界域Ⅱ使用朴素贝叶斯算法进行第三次三支决策,对于边界域Ⅲ由朴素贝叶斯分类器,k NN和支持向量机分类器加权投票决定。实验表明新的分类模型有助于提高评论文本情感分类的正确率,具有一定的优势。
【图文】:

流程图,评论文,商品,流程图


第五章 实验结果及分析5.1 实验概述本章的主要内容是根据第三章第四章中的论述的算法和提出的模型进行实验,通过对比实验来验证本文提出的改进算法的优势。5.1.1 数据的采集本文使用爬虫技术爬取京东商城上的小米 Mix2S 手机评论,代码使用 Python进行编写,,使用现有的 Scrapy 框架,因为其功能强大,开发简单,速度较快,是比较理想的网络爬虫框架,数据采集的流程如图 5-1 所示。

变化曲线,维度,变化曲线,召回率


正确率随着特征维度变化曲线图
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F724.6;F274;TP391.1

【相似文献】

相关期刊论文 前10条

1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期

4 张慧伦;;伴随文本:透视网络文学发展的重要路径[J];百家评论;2019年04期

5 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期

6 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期

7 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期

8 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期

9 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期

10 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期

相关会议论文 前10条

1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 周纯洁;黎]

本文编号:2621724


资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2621724.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c3a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com