在线商家多渠道索要好评对消费者差评意愿的影响研究
发布时间:2021-08-07 00:09
随着信息技术与电子商务的迅速发展,网购已成为人们日常生活中不可分割的一部分,在这种情景下,店铺在线评论的重要性也在日益增长,已经成为消费者购物过程中重要的信息来源,会对消费者的决策产生重要影响,因此在现实生活中很多在线商家在销售后会向消费者索要好评,但是现阶段国内外学者主要研究在线评论对消费者决策过程的影响作用,而对在线商家索要好评和消费者差评意愿缺乏足够的重视。鉴于此本文提出研究课题——在线商家多渠道索要好评对消费者差评意愿的影响研究。为研究在线商家索要好评与消费者的差评意愿之间的关系,本文在总结前人研究的基础上,采用文本挖掘和问卷调查相结合的方法探索了在线商家索要好评对消费者差评意愿的影响过程。首先采用网络爬虫技术,抓取淘宝商家的消费者在线差评文本;利用Latent Dirchlet Allocation模型(后面简称LDA模型)对清洗后的评论文本数据进行主题提取,并对提取的结果进行可视化处理和解读,探究是否真的存在因为商家索要好评而得到差评的情况,而且在线商家索要好评的渠道是多样的(例如电话索要,短信索要,淘宝旺旺索要等等),本文通过问卷调查的方式对索要好评的渠道差异进行探究,同...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
技术路线图
吉林大学硕士学位论文9一种概率模型,而且很多学者将LDA改进使其可以适用于更多的场景,同时也提高了LDA模型的准确度。LDA是由(DavidM.Blei,2003)等人提出是一种收集离散数据(例如文本语料库)的概率生成模型[12]。LDA是无监督学习,需要事先指定主题数量,输出的结果是不同的类分布。LDA是三级分层贝叶斯模型,其核心思想是将文档表示为一系列潜在主题的随机混合,其中每个主题以语料库中所有词语的概率分布为特征,相同词语在不同的主题下概率不同,与主题相关的词语的概率较高。图2.1:LDA主题模型图中符号含义如下:M是文档数量;N是词语数量;T是总的主题数;郎是文档-主题分布;郑是主题-词语分布;是郎的超参数,是郑的超参数;w代表词语,z表示从w中提取的主题。对于给定一个语料库,令(),1,2,,,......,mmmmmNd=www表示第m篇文档;(),1,2,,,......,mmmmnz=zzz中分量表示md中每个词语所属的主题;()12,,......,MD=ddd则表示语料库,()12,,......,Mz=zzz中的分量则与D中的分量一一对应,表示不同文档的主题分布。1、选取文档md的主题分布m,m是由超参数为的狄利克雷分布生成。2、对于单词的选择:a、首先根据mさ的多项式分布取样生成md的第n个词的主题m,nz;b、根据超参数为的狄利克雷分布取样生成主题m,nz对应的词语分布m,nz遃;c、从m,nz的多项式分布中取样最终生成词语m,nw。不停重复以上步骤便可以生成文档md和整个语料库。通过将生成文档的复杂过程简化为几个步骤,从而指定了了文档中的主题和词语的概率分布;了解LDA模型下文档的生成过程,可以通过LDA模型为语料
吉林大学硕士学位论文18的词语,并将这100个词以词云的形式展现出来,词云中词字体的大小表明了这个词在文本中的词频;词字体越大,词频越高;图3.1展示了词云:图3.1:词云通过词云可以清楚的看出“了”、“的”以及“我”这几个词的字体最大,这就意味着这些词的词频是最高的,但是在实际上这些高频词是没有什么实际意义,并且很多词语长度为1,这些词语对于后续文本分析结果的解读帮助非常小甚至可能会产生干扰作用;因此需要将这些对于文本分析结果解读没有帮助的高频词进行剔除,同时还需要将一些感叹词或者是语气助词也进行剔除,这一步骤称为去停用词。去除停用词需要停用词词典,本研究将通用停用词词典和专用停用词词典相结合构建了自定义停用词词典;常见的通用停用词词典包括哈工大停用词表、百度停用词表、四川大学人工智能实验室停用词库,本研究采用的是哈尔滨工业大学的停用词词典,然后在此基础上将哪些对与结果解读帮助较小的无用高频词加入停用词词典,构建了自定义停用词词典;在对分析结果解读时词长度等于1的词语的可解释性较弱,因此在这个过程中只保留词长度大于或者等于2的词语。这样更有利于我们对结果进行解读。图3.2a和3.2b的对比展示了数据预处理的效果,从图3.2b中我们可以看出还是存在一些对于结果解读没有帮助的词语例如“其实、看过”等等一些词,但是这是没有办法避免的,因为在实际研究中很难识别所有的无意义词,但是后续的主题提取时一部分的高频无意义词会被我们通过模型自动过滤掉。
本文编号:3326753
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
技术路线图
吉林大学硕士学位论文9一种概率模型,而且很多学者将LDA改进使其可以适用于更多的场景,同时也提高了LDA模型的准确度。LDA是由(DavidM.Blei,2003)等人提出是一种收集离散数据(例如文本语料库)的概率生成模型[12]。LDA是无监督学习,需要事先指定主题数量,输出的结果是不同的类分布。LDA是三级分层贝叶斯模型,其核心思想是将文档表示为一系列潜在主题的随机混合,其中每个主题以语料库中所有词语的概率分布为特征,相同词语在不同的主题下概率不同,与主题相关的词语的概率较高。图2.1:LDA主题模型图中符号含义如下:M是文档数量;N是词语数量;T是总的主题数;郎是文档-主题分布;郑是主题-词语分布;是郎的超参数,是郑的超参数;w代表词语,z表示从w中提取的主题。对于给定一个语料库,令(),1,2,,,......,mmmmmNd=www表示第m篇文档;(),1,2,,,......,mmmmnz=zzz中分量表示md中每个词语所属的主题;()12,,......,MD=ddd则表示语料库,()12,,......,Mz=zzz中的分量则与D中的分量一一对应,表示不同文档的主题分布。1、选取文档md的主题分布m,m是由超参数为的狄利克雷分布生成。2、对于单词的选择:a、首先根据mさ的多项式分布取样生成md的第n个词的主题m,nz;b、根据超参数为的狄利克雷分布取样生成主题m,nz对应的词语分布m,nz遃;c、从m,nz的多项式分布中取样最终生成词语m,nw。不停重复以上步骤便可以生成文档md和整个语料库。通过将生成文档的复杂过程简化为几个步骤,从而指定了了文档中的主题和词语的概率分布;了解LDA模型下文档的生成过程,可以通过LDA模型为语料
吉林大学硕士学位论文18的词语,并将这100个词以词云的形式展现出来,词云中词字体的大小表明了这个词在文本中的词频;词字体越大,词频越高;图3.1展示了词云:图3.1:词云通过词云可以清楚的看出“了”、“的”以及“我”这几个词的字体最大,这就意味着这些词的词频是最高的,但是在实际上这些高频词是没有什么实际意义,并且很多词语长度为1,这些词语对于后续文本分析结果的解读帮助非常小甚至可能会产生干扰作用;因此需要将这些对于文本分析结果解读没有帮助的高频词进行剔除,同时还需要将一些感叹词或者是语气助词也进行剔除,这一步骤称为去停用词。去除停用词需要停用词词典,本研究将通用停用词词典和专用停用词词典相结合构建了自定义停用词词典;常见的通用停用词词典包括哈工大停用词表、百度停用词表、四川大学人工智能实验室停用词库,本研究采用的是哈尔滨工业大学的停用词词典,然后在此基础上将哪些对与结果解读帮助较小的无用高频词加入停用词词典,构建了自定义停用词词典;在对分析结果解读时词长度等于1的词语的可解释性较弱,因此在这个过程中只保留词长度大于或者等于2的词语。这样更有利于我们对结果进行解读。图3.2a和3.2b的对比展示了数据预处理的效果,从图3.2b中我们可以看出还是存在一些对于结果解读没有帮助的词语例如“其实、看过”等等一些词,但是这是没有办法避免的,因为在实际研究中很难识别所有的无意义词,但是后续的主题提取时一部分的高频无意义词会被我们通过模型自动过滤掉。
本文编号:3326753
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3326753.html