基于改进Adaboost模型的商品短文本评价情感分析研究
发布时间:2021-02-11 17:00
伴随着互联网时代的到来,网络购物逐渐成为全国人民日常生活中的一部分,淘宝、京东、苏宁易购等软件的装机量越来越高,根据淘宝官方公布的数据,仅2019年11月11日当天淘宝的日活量接近5亿之多,当天最终成交额达2684亿之高,随之而来的是消费者对自己所购产品的评价反馈,如何从这些含有大量干扰和无效的数据之中,快速又准确提取出重要的信息,再把提取出来后的信息反馈给消费者和商家,这个问题越来越重要,其中分析网络购物评价的情感倾向逐渐成为研究人员关注的热点。本文主要贡献为:(1)针对蝙蝠优化算法易陷入局部极值的缺点,提出了基于余弦控制因子和迭代局部搜索的蝙蝠优化算法(CILSBA)。算法首先加入了基于余弦控制因子控制的非线性惯性权重来加强算法的寻优精度和稳定性,其次,在每轮迭代结束之前设计改造了迭代局部搜索策略来扰动局部最优解,重新搜索全局最优解。仿真实验结果表明,CILSBA在高维亦可取得最优解,并且函数的收敛速度也高于基本蝙蝠算法,平均值均优于基本蝙蝠算法效果。(2)结合集成学习的思想,针对Adaboost算法中存在的权重更新缺陷,提出了权重阈值和新的自适应权重更新公式,使论文算法大幅度降低...
【文章来源】:河南大学河南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
神经元示意图
132.5K-近邻算法KNN(K-NearestNeighbor)分类算法同时也被称为K近邻分类算法,是一种基本的数据挖掘分类算法[29]。1967年Cover等人通过一种改进NN算法,提出了KNN算法[30]。KNN算法对于一个样本,如果该样本周围距离最近的k个样本属于同一种类别,那么这个样本也可被划分至这个类别,则它的分类原则取决于周围距离较近的样本类别。如图2-1所示。假设指定样本是x,k是3,则距离x最近的三个样本中,存在两个正方形,那么x就能够被归为正方形类。图2-2KNN示意图KNN分类算法可以很好的解决不同样本类别数量不等的问题,对于一些不好判别类别的数据集,具有很好的效果,其距离判断一般采用欧氏距离,来判断样本的距离,判别函数为:φ()=iixk(2-11)公式中x为指定样本,i为其他样本类别的数量。KNN分类算法的缺点在于每次进行判别时,需要对指定分类样本与全体的数据样本进行距离计算,这提高了算法的时间复杂度,时间效率有待提高。2.6本章小结本章的主要内容是对情感分析的两种方法做了简单的介绍,并且把其中基于机器学习的支持向量机、朴素贝叶斯、人工神经网络和K-近邻算法的原理简单描述,是整个研究过程的根基,同时也为后续集成学习Adaboost模型的建立奠定了基矗
30消极语料105827681总计2367116002短文本数据在进行处理之后,在训练前数据也要经过分词,将词语分出来后,才能精准的找到特征,抓住情感因素。由于中文一词多义,与不同词语或句子结合,往往有不同的意思,直到现在中文分词问题仍处于热点研究当中,本文选择使用THULAC(THULexicalAnalyzerforChinese)对短文本数据进行分词处理。分词结果如图4-1所示。图4-1分词结果示意图本文选择使用SVM、朴素贝叶斯、人工神经网络、K-近邻算法四种算法作为弱学习器进行训练。其中SVM模型在重要参数选取过程中,参数的选取范围过大导致效率低下,并且参数选取的结果具有不稳定性,过高或过低的结果最终也会影响整个模型分类的准确率,呈现出准确率不稳定的情况。针对SVM模型中两个尤为重要的参数c和g的选取和确定进行优化,用改进后的蝙蝠优化算法对参数进行参数寻优,不仅能减少寻优的时间也能提高参数的准确率[48]。本文的4组实验采用的方法如下:(1)传统的SVM算法;(2)基于余弦控制因子和迭代局部搜的蝙蝠优化算法进行改进后的SVM算法;(3)传统Adaboost算法;(4)改进后的Adaboost算法。论文根据情感分析的实验结果进行整理得到了表4-2。表4-2情感分析实验对比算法评估指标SVM改进SVMAdaboost改进Adaboost准确率97.1397.8298.9999.13精确度84.9888.6490.4691.21
【参考文献】:
期刊论文
[1]商品评论情感倾向性分析[J]. 李明,胡吉霞,侯琳娜,严峻. 计算机应用. 2019(S2)
[2]基于注意力机制Bi-LSTM算法的双语文本情感分析[J]. 翟社平,杨媛媛,邱程,李婧,毋志云. 计算机应用与软件. 2019(12)
[3]基于双向时间深度卷积网络的中文文本情感分类[J]. 韩建胜,陈杰,陈鹏,刘杰,彭德中. 计算机应用与软件. 2019(12)
[4]基于动态自适应权重和柯西变异的蝙蝠优化算法[J]. 赵青杰,李捷,于俊洋,吉宏远. 计算机科学. 2019(S1)
[5]融合词性的双注意力Bi-LSTM情感分析[J]. 赵富,杨洋,蒋瑞,张利君,任晓雷. 计算机应用. 2018(S2)
[6]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[7]一种动态调整惯性权重的自适应蝙蝠算法[J]. 裴宇航,刘景森,李煜. 计算机科学. 2017(06)
[8]情感分类研究进展[J]. 陈龙,管子玉,何金红,彭进业. 计算机研究与发展. 2017(06)
[9]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[10]基于变分模态分解和蝙蝠算法-相关向量机的短期风速区间预测[J]. 范磊,卫志农,李慧杰,Kwok W Cheung,孙国强,孙永辉. 电力自动化设备. 2017(01)
硕士论文
[1]基于SVM模型优化的互联网新闻自动分类研究[D]. 高宁杰.河南大学 2019
本文编号:3029429
【文章来源】:河南大学河南省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
神经元示意图
132.5K-近邻算法KNN(K-NearestNeighbor)分类算法同时也被称为K近邻分类算法,是一种基本的数据挖掘分类算法[29]。1967年Cover等人通过一种改进NN算法,提出了KNN算法[30]。KNN算法对于一个样本,如果该样本周围距离最近的k个样本属于同一种类别,那么这个样本也可被划分至这个类别,则它的分类原则取决于周围距离较近的样本类别。如图2-1所示。假设指定样本是x,k是3,则距离x最近的三个样本中,存在两个正方形,那么x就能够被归为正方形类。图2-2KNN示意图KNN分类算法可以很好的解决不同样本类别数量不等的问题,对于一些不好判别类别的数据集,具有很好的效果,其距离判断一般采用欧氏距离,来判断样本的距离,判别函数为:φ()=iixk(2-11)公式中x为指定样本,i为其他样本类别的数量。KNN分类算法的缺点在于每次进行判别时,需要对指定分类样本与全体的数据样本进行距离计算,这提高了算法的时间复杂度,时间效率有待提高。2.6本章小结本章的主要内容是对情感分析的两种方法做了简单的介绍,并且把其中基于机器学习的支持向量机、朴素贝叶斯、人工神经网络和K-近邻算法的原理简单描述,是整个研究过程的根基,同时也为后续集成学习Adaboost模型的建立奠定了基矗
30消极语料105827681总计2367116002短文本数据在进行处理之后,在训练前数据也要经过分词,将词语分出来后,才能精准的找到特征,抓住情感因素。由于中文一词多义,与不同词语或句子结合,往往有不同的意思,直到现在中文分词问题仍处于热点研究当中,本文选择使用THULAC(THULexicalAnalyzerforChinese)对短文本数据进行分词处理。分词结果如图4-1所示。图4-1分词结果示意图本文选择使用SVM、朴素贝叶斯、人工神经网络、K-近邻算法四种算法作为弱学习器进行训练。其中SVM模型在重要参数选取过程中,参数的选取范围过大导致效率低下,并且参数选取的结果具有不稳定性,过高或过低的结果最终也会影响整个模型分类的准确率,呈现出准确率不稳定的情况。针对SVM模型中两个尤为重要的参数c和g的选取和确定进行优化,用改进后的蝙蝠优化算法对参数进行参数寻优,不仅能减少寻优的时间也能提高参数的准确率[48]。本文的4组实验采用的方法如下:(1)传统的SVM算法;(2)基于余弦控制因子和迭代局部搜的蝙蝠优化算法进行改进后的SVM算法;(3)传统Adaboost算法;(4)改进后的Adaboost算法。论文根据情感分析的实验结果进行整理得到了表4-2。表4-2情感分析实验对比算法评估指标SVM改进SVMAdaboost改进Adaboost准确率97.1397.8298.9999.13精确度84.9888.6490.4691.21
【参考文献】:
期刊论文
[1]商品评论情感倾向性分析[J]. 李明,胡吉霞,侯琳娜,严峻. 计算机应用. 2019(S2)
[2]基于注意力机制Bi-LSTM算法的双语文本情感分析[J]. 翟社平,杨媛媛,邱程,李婧,毋志云. 计算机应用与软件. 2019(12)
[3]基于双向时间深度卷积网络的中文文本情感分类[J]. 韩建胜,陈杰,陈鹏,刘杰,彭德中. 计算机应用与软件. 2019(12)
[4]基于动态自适应权重和柯西变异的蝙蝠优化算法[J]. 赵青杰,李捷,于俊洋,吉宏远. 计算机科学. 2019(S1)
[5]融合词性的双注意力Bi-LSTM情感分析[J]. 赵富,杨洋,蒋瑞,张利君,任晓雷. 计算机应用. 2018(S2)
[6]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[7]一种动态调整惯性权重的自适应蝙蝠算法[J]. 裴宇航,刘景森,李煜. 计算机科学. 2017(06)
[8]情感分类研究进展[J]. 陈龙,管子玉,何金红,彭进业. 计算机研究与发展. 2017(06)
[9]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[10]基于变分模态分解和蝙蝠算法-相关向量机的短期风速区间预测[J]. 范磊,卫志农,李慧杰,Kwok W Cheung,孙国强,孙永辉. 电力自动化设备. 2017(01)
硕士论文
[1]基于SVM模型优化的互联网新闻自动分类研究[D]. 高宁杰.河南大学 2019
本文编号:3029429
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3029429.html
最近更新
教材专著