基于数据挖掘的手机客户网络评论的研究
发布时间:2017-11-17 10:33
本文关键词:基于数据挖掘的手机客户网络评论的研究
更多相关文章: 数据挖掘 网络评论 可视化 文本情感分析 客户细分
【摘要】:随着移动互联网时代的发展,越来越多的客户热衷于在网络平台中发表和分享关于购买产品的评价,从而海量的关于客户的各种属性和网络评论数据存储在了网络平台中,而企业要想提升经营效益和自身竞争力,就必须要从中挖掘出有用的商业信息。本文利用数据挖掘的方法对手机客户网络评论进行了研究,主要研究工作及相关的结论有如下四个方面:第一,基于Gooseeker软件的网络爬虫技术研究了华为手机官网上手机客户评论的URL抓取规则和评论数据采集规则,采集了所选取网站上约2千条评论并以XML格式存储,再用Swift、Excel软件对原始数据集进行去除噪声评论的预处理,最后得到1473条,近6万字的网络评论作为样本数据集。第二,基于可视化技术和LDA主题模型,利用R和ROST CM 6等软件,进行了评论文本的特征分析。其中可视化分析主要从词云和网络语义两个方面进行,得到词频均较高的词以及客户对产品的优点与不足的评价等相关信息,如外观好看、商品发货很快、物流速度很快,但存在电池易发热,不耐使用、续航能力差等方面的不足。基于LDA主题模型的特征分析,得到客户关注的前8个主题为“做工、手感、耳机、设计、体验、存储、电池、包装”,通过分月份的LDA主题模型分析结果,得到客户评论的主题词随着时间的变化而改变。第三,采用基于情感词典的方法进行了情感值分析,利用Python语言编程,计算出每条评论的情感值。进而判断客户评论的情感倾向,并通过描述统计分析,得知有21.1%的客户的评论情感值大于正面评论的情感均值,与80/20原则一致,即20%的忠实客户往往能够给企业提供80%的利润。进一步,在LDA主题模型分析得到的评论所关注的热点属性和可视化分析的词频统计的基础上,对客户所关注的各个属性的情感倾向进行了分析,得到客户负面反馈比例最高的主题是配件(25.41%),此外,在服务和系统上的负面反馈比例也比较高,分别达到了23.44%、19.70%。第四,为了对客户进行高价值到低价值的区间分隔,结合所采集数据的情况,首先采用客户级别、评分等级、积极情感值、消极情感值、积极情感方差、消极情感方差这6个变量作为客户特征细分的指标,采用Two-Step聚类算法,将客户分为关键客户、主要客户、普通客户、小客户这4个类别,并得到高价值客户占比为18.3%,大致反映了Pareto定律(2-8定律)。然后,在客户细分的基础上,建立了有序多分类Logistic回归预测模型,所建模型对客户类型的预测准确度为97.62%,表明了所建立模型的预测效果较好,可以用来对新样本进行客户类型的预测。最后,本文基于对手机客户网络评论所做的数据挖掘分析结果,进行了研究内容的总结,再根据总结所得到的结论提出了客户营销的建议以及今后研究的展望,以期给企业、商家提供参考。
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;F274
,
本文编号:1195747
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/1195747.html