面向不平衡电商评论文本的改进朴素贝叶斯分类模型研究
发布时间:2021-07-21 10:44
文本挖掘是数据挖掘中的重要研究方向之一,本文选取较热门的电商评论数据情感分类作为应用场景。随着海量的订单数量每天产生巨大好评或差评数据,手动的人工分类会耗费大量的人力物力,若此时应用文本情感分类的方法,则会达到省时省力的效果。在文本分类领域中,朴素贝叶斯方法是常用的分类模型,有着高效且快速的特点。但针对电商商品的评论数据,其有着较严重的样本不平衡特点,即用户给予好评的样本数量远大于用户给予差评的样本数量,若不进行适当的处理,分类的结果会向多数类倾斜,少数类样本很难被识别处理,会严重影响分类模型的效果。本文的研究目的便是针对电商商品评论数据具有样本不平衡的特点,对朴素贝叶斯算法进行改进,能有效提高模型在不平衡样本下的分类准确率。为提高不平衡电商评论数据的分类成功率,本文主要从样本空间、模型算法、集成模型三个方面开展工作:(1)对于不平衡数据的样本空间,若不加以改造,那么分类的结果会较容易偏向类别较多的样本,本文则结合欠采样方法以及基于word2vec的词移距离进行判断,从多数类样本中采用欠采样方法选择出词移距离与待预测样本较近的若干个样本,从而构造出新的平衡训练样本。(2)在对平衡样本构...
【文章来源】:广州大学广东省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
CBOW与skip-gram原理示意图
【参考文献】:
期刊论文
[1]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[2]基于改进特征加权的朴素贝叶斯分类算法[J]. 丁月,汪学明. 计算机应用研究. 2019(12)
[3]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[4]不平衡数据分类研究综述[J]. 陈湘涛,高亚静. 邵阳学院学报(自然科学版). 2017(02)
[5]基于朴素贝叶斯的Web文本分类及其应用[J]. 包小兵. 电脑知识与技术. 2016(30)
[6]面向新闻领域的中文文本分类研究综述[J]. 薛春香,张玉芳. 图书情报工作. 2013(14)
[7]AdaBoost算法研究进展与展望[J]. 曹莹,苗启广,刘家辰,高琳. 自动化学报. 2013(06)
[8]基于支持向量机的不平衡数据分类的改进欠采样方法[J]. 赵自翔,王广亮,李晓东. 中山大学学报(自然科学版). 2012(06)
[9]面向不平衡文本的特征选择方法[J]. 廖一星,潘雪增. 电子科技大学学报. 2012(04)
[10]非平衡数据集的改进SMOTE再抽样算法[J]. 薛薇. 统计研究. 2012(06)
硕士论文
[1]文本分类中特征选择算法研究[D]. 陈雨杰.哈尔滨工业大学 2015
[2]不平衡数据集分类算法的研究[D]. 孟军.南京理工大学 2014
本文编号:3294871
【文章来源】:广州大学广东省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
CBOW与skip-gram原理示意图
【参考文献】:
期刊论文
[1]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[2]基于改进特征加权的朴素贝叶斯分类算法[J]. 丁月,汪学明. 计算机应用研究. 2019(12)
[3]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[4]不平衡数据分类研究综述[J]. 陈湘涛,高亚静. 邵阳学院学报(自然科学版). 2017(02)
[5]基于朴素贝叶斯的Web文本分类及其应用[J]. 包小兵. 电脑知识与技术. 2016(30)
[6]面向新闻领域的中文文本分类研究综述[J]. 薛春香,张玉芳. 图书情报工作. 2013(14)
[7]AdaBoost算法研究进展与展望[J]. 曹莹,苗启广,刘家辰,高琳. 自动化学报. 2013(06)
[8]基于支持向量机的不平衡数据分类的改进欠采样方法[J]. 赵自翔,王广亮,李晓东. 中山大学学报(自然科学版). 2012(06)
[9]面向不平衡文本的特征选择方法[J]. 廖一星,潘雪增. 电子科技大学学报. 2012(04)
[10]非平衡数据集的改进SMOTE再抽样算法[J]. 薛薇. 统计研究. 2012(06)
硕士论文
[1]文本分类中特征选择算法研究[D]. 陈雨杰.哈尔滨工业大学 2015
[2]不平衡数据集分类算法的研究[D]. 孟军.南京理工大学 2014
本文编号:3294871
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3294871.html