电商评论情感分析及销量预测方法研究
发布时间:2021-10-23 06:11
随着互联网技术迅猛发展,人们逐渐开始接受并热衷于网络购物,同时习惯于查看商品评论信息来决定是否购买。这些评论数据中不仅蕴含着用户的兴趣与偏好信息,还包含着商品信息。因此如何通过商品评论数据获取到有价值的信息成为一个亟待解决的问题。首先爬取亚马逊平台的手机评论信息,对爬取到的数据进行预处理,包括数据清洗以及缺失值处理等工作,之后对数据进行文本分词、词性标注以及去停用词等文本语言化处理工作。实验中进行名词过滤以及同义词合并的操作,缩小商品特征词的筛选范围,利用隐狄利克雷分配模型来获取商品特征信息,筛选出出现次数较多的特征词。然后通过将知网HowNet、台湾大学NTUSD、清华大学李军中文褒贬义词典以及一部分未标注来源的词典中的正负向情感词分开整合,同时加入知网词典中的副词,从而构成一个完整的情感词典。为了计算商品特征词情感极性值,需要为情感词典中的不同词赋予不同的权重。使用主成分分析算法对建模数据进行降维,保留数据中有用信息,去除噪声数据。将情感因子加入多元线性回归模型、支持向量机回归以及极端梯度提升算法对商品销量做预测。实验中销量是通过商品销量排名来体现,所以实验中具体是对销量排名进行预...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图1.?1论文研究思路??Fig.?1.1?Paper?research?ideas??1.5?本章小结??本章介绍了论文的研究背景及意义,进一步叙述文本情感分析以及销量预测的国内??外研究情况
则,??正确使用方法,才能从大量数据中挖掘出对我们有用的信息。文本挖掘的过程如下图所??示:????I?|?;*???????*?'?|—^―^―|?r——1?|?|??数?数文丨? ̄?|丨文特?数结??据?据?本?丨—————:?本?征?据?果??:■;?I?^?:??集?处?¥?丨?1?i?#?选?模?析??理?处11去停用词I理?改??理丨?j?进??—I?—I?1^——J??J?L^___1????图2.?1文本挖掘过程??Fig.?2.1?Text?mining?process??所以总的来说数据挖掘有以下几个步骤:??(1)?明确文本数据挖掘目的。明确文本挖掘的目的就是确定你想要解决什么问??题,想要了解哪种隐藏的关系。只有明确了挖掘的0标,才能顺利地开展接下来的工作。??-7?-??
题的文档生成模型,主要由文档、主题、词组成的??三层贝叶斯结构,并且是用概率分布来描述数据集[4叱同时LDA主题模型是将狄利克??雷分布作为先验,并且使用贝叶斯算法来进行估计t4l]。它的工作过程是这样的:首先从??语料库中以一定的概率去选择一定的主题,然后再在主题下以一定的概率去选择词语。??这里文档与主题以及主题与词之间都是服从狄利克雷分布的。不断去重复这个过程,直??到文档生成。文本生成过程如图所示:??A'????e??£?1!_A3???M_??图2.2?LDA概率模型图??Fig.?2.2?LDA?probability?model?diagram??图中各变量分别表示:M代表文档篇数,N是文档中词的个数,w是单个单词。a??代表狄利克雷分布(Dirichlet)的参数,0是一篇文档的主题分布fi^Dirichleti^^z是一篇??文档某个主题,服从多项分布:z(n) ̄Multinomial(6>),p代表有主题数乘以语料库中词的??总个数形成的矩阵,它是主题与词之间的Dirichlet分布中的超参数。所以模型中所有变??量的联合概率分布为公式(2.4),之后我们进一步调整,对0进行积分,对z进行求和,获??得一个文档生成概率。最后将所有文档的生成概率相乘,得到所有文档的生成概率,也??就是生成整个语料库的概率Ml,即公式(2.5)。??P(9,?Z,W\d,P)?=?P{61?d)?*?n;^,?P(Zn?16)?*?P(D?I?a,?P)?(2.4)??-li?-??
【参考文献】:
期刊论文
[1]基于表情符号的情感词典的构建研究[J]. 林江豪,顾也力,周咏梅,阳爱民,陈锦. 计算机技术与发展. 2019(06)
[2]基于主题模型的技术预见文本分析[J]. 吕皓,周晓纪. 情报探索. 2018(10)
[3]基于TF-IDF算法的文本信息提取[J]. 于韬,王洪岩. 科技视界. 2018(16)
[4]主题模型的发展及应用研究[J]. 马欣. 电脑知识与技术. 2018(15)
[5]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[6]基于Logistic回归模型的藏文文本分类研究与实现[J]. 群诺,贾宏云. 信息与电脑(理论版). 2018(05)
[7]一种基于词义和词频的向量空间模型改进方法[J]. 邓晓衡,杨子荣,关培源. 计算机应用研究. 2019(05)
[8]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[9]朴素贝叶斯算法在文本分类中的应用[J]. 邹晓辉. 数字技术与应用. 2017(12)
[10]数据挖掘技术综述[J]. 邹祎. 信息通信. 2016(12)
硕士论文
[1]基于领域词典与机器学习的中文评论情感分析[D]. 杨鹏.南京邮电大学 2018
[2]航拍图像的分割提取及其应用改进[D]. 徐莹.电子科技大学 2018
[3]基于机器学习的情感分析方法研究[D]. 张磊.电子科技大学 2018
[4]在线评论文本和评级的不一致性及商家反馈对商品销量的影响研究[D]. 张艳芳.北京邮电大学 2018
[5]基于时间序列分析的汽车销量预测研究[D]. 章旭.合肥工业大学 2017
[6]基于评论情感和自回归模型的销量预测研究[D]. 李雪妮.大连理工大学 2013
[7]文本特征选择在网络信息过滤系统中的应用研究[D]. 邱烨.山东师范大学 2010
[8]KNN文本分类研究[D]. 闫晨.燕山大学 2010
[9]基于最大熵的汉语词性标注[D]. 孔海霞.大连理工大学 2007
本文编号:3452624
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图1.?1论文研究思路??Fig.?1.1?Paper?research?ideas??1.5?本章小结??本章介绍了论文的研究背景及意义,进一步叙述文本情感分析以及销量预测的国内??外研究情况
则,??正确使用方法,才能从大量数据中挖掘出对我们有用的信息。文本挖掘的过程如下图所??示:????I?|?;*???????*?'?|—^―^―|?r——1?|?|??数?数文丨? ̄?|丨文特?数结??据?据?本?丨—————:?本?征?据?果??:■;?I?^?:??集?处?¥?丨?1?i?#?选?模?析??理?处11去停用词I理?改??理丨?j?进??—I?—I?1^——J??J?L^___1????图2.?1文本挖掘过程??Fig.?2.1?Text?mining?process??所以总的来说数据挖掘有以下几个步骤:??(1)?明确文本数据挖掘目的。明确文本挖掘的目的就是确定你想要解决什么问??题,想要了解哪种隐藏的关系。只有明确了挖掘的0标,才能顺利地开展接下来的工作。??-7?-??
题的文档生成模型,主要由文档、主题、词组成的??三层贝叶斯结构,并且是用概率分布来描述数据集[4叱同时LDA主题模型是将狄利克??雷分布作为先验,并且使用贝叶斯算法来进行估计t4l]。它的工作过程是这样的:首先从??语料库中以一定的概率去选择一定的主题,然后再在主题下以一定的概率去选择词语。??这里文档与主题以及主题与词之间都是服从狄利克雷分布的。不断去重复这个过程,直??到文档生成。文本生成过程如图所示:??A'????e??£?1!_A3???M_??图2.2?LDA概率模型图??Fig.?2.2?LDA?probability?model?diagram??图中各变量分别表示:M代表文档篇数,N是文档中词的个数,w是单个单词。a??代表狄利克雷分布(Dirichlet)的参数,0是一篇文档的主题分布fi^Dirichleti^^z是一篇??文档某个主题,服从多项分布:z(n) ̄Multinomial(6>),p代表有主题数乘以语料库中词的??总个数形成的矩阵,它是主题与词之间的Dirichlet分布中的超参数。所以模型中所有变??量的联合概率分布为公式(2.4),之后我们进一步调整,对0进行积分,对z进行求和,获??得一个文档生成概率。最后将所有文档的生成概率相乘,得到所有文档的生成概率,也??就是生成整个语料库的概率Ml,即公式(2.5)。??P(9,?Z,W\d,P)?=?P{61?d)?*?n;^,?P(Zn?16)?*?P(D?I?a,?P)?(2.4)??-li?-??
【参考文献】:
期刊论文
[1]基于表情符号的情感词典的构建研究[J]. 林江豪,顾也力,周咏梅,阳爱民,陈锦. 计算机技术与发展. 2019(06)
[2]基于主题模型的技术预见文本分析[J]. 吕皓,周晓纪. 情报探索. 2018(10)
[3]基于TF-IDF算法的文本信息提取[J]. 于韬,王洪岩. 科技视界. 2018(16)
[4]主题模型的发展及应用研究[J]. 马欣. 电脑知识与技术. 2018(15)
[5]文本特征提取方法研究综述[J]. 徐冠华,赵景秀,杨红亚,刘爽. 软件导刊. 2018(05)
[6]基于Logistic回归模型的藏文文本分类研究与实现[J]. 群诺,贾宏云. 信息与电脑(理论版). 2018(05)
[7]一种基于词义和词频的向量空间模型改进方法[J]. 邓晓衡,杨子荣,关培源. 计算机应用研究. 2019(05)
[8]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[9]朴素贝叶斯算法在文本分类中的应用[J]. 邹晓辉. 数字技术与应用. 2017(12)
[10]数据挖掘技术综述[J]. 邹祎. 信息通信. 2016(12)
硕士论文
[1]基于领域词典与机器学习的中文评论情感分析[D]. 杨鹏.南京邮电大学 2018
[2]航拍图像的分割提取及其应用改进[D]. 徐莹.电子科技大学 2018
[3]基于机器学习的情感分析方法研究[D]. 张磊.电子科技大学 2018
[4]在线评论文本和评级的不一致性及商家反馈对商品销量的影响研究[D]. 张艳芳.北京邮电大学 2018
[5]基于时间序列分析的汽车销量预测研究[D]. 章旭.合肥工业大学 2017
[6]基于评论情感和自回归模型的销量预测研究[D]. 李雪妮.大连理工大学 2013
[7]文本特征选择在网络信息过滤系统中的应用研究[D]. 邱烨.山东师范大学 2010
[8]KNN文本分类研究[D]. 闫晨.燕山大学 2010
[9]基于最大熵的汉语词性标注[D]. 孔海霞.大连理工大学 2007
本文编号:3452624
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3452624.html