当前位置:主页 > 经济论文 > 国际贸易论文 >

基于用户选购及在线点评行为的门店画像研究

发布时间:2017-11-15 01:17

  本文关键词:基于用户选购及在线点评行为的门店画像研究


  更多相关文章: 门店画像 网络爬虫 情感分类 主题聚类 Spark


【摘要】:随着依托于互联网的O2O电子商务快速发展,使的O2O企业能够收集到的相关数据呈井喷式增长。为有效挖掘此类数据,本文重点研究在线点评文本的情感分类和主题聚类,并以此为基础结合用户选购行为数据提出一套门店画像构建及应用的完整思路。本文的主要工作包括:设计并开发爬虫系统抓取实验数据。动态Web信息获取是目前爬虫的一个技术难点。本文为获取实验数据,依据Scrapy开源爬虫系统设计逻辑,在浏览器测试框架Selenium中嵌入基于Phantom JS的Ghost Driver驱动,设计并开发出一个可抓取动态Web信息的网络爬虫系统:nlp-dynamic-spider。并基于此抓取了大众点评一线城市服装行业的门店、用户在线点评以及用户数据作为本文的实验数据。通过在词库中添加新词和领域词提高分词准确度。由于评论文本中包含大量网络流行词、领域词,导致分词不准确。本文依据候选词词内凝固度、边界自由度、出现次数、文档频率等特征引入大规模语料的新词识别算法,有效识别出网络评论流行词,并在此基础上加入服装行业领域词进一步提高分词准确度。基于浅层深度学习算法Word2Vec引入三种文本表示算法。本文通过将传统的BOOL、TF、TF-IDF文本表示法结合浅层深度学习词向量Word2Vec算法,通过线性加权求和的方式引入BOOL-W2V、TF-W2V、TF-IDF-W2V三种文本DR表示算法。并在四个不同的点评数据集上对这六种表示法进行情感倾向分类对比实验。实验结果表明:在语料库中文档较多但标注样本占比低、标注不平衡的情况下,TF-W2V文本表示法比另外五种文本表示法效果更好。构建基于Spark大数据平台的文本挖掘组件。为提高海量在线点评文本信息处理速度,采用分布式并行处理技术是目前的趋势。本文基于目前最流行的大数据处理平台Spark,并在其提供的基础接口之上,设计了一系列中文处理的算法,包括:新词发现、多种中文文本表示、文本特征提取等,并构建出基于Spark大数据平台的文本挖掘组件:nlp-spark。基于用户选购和在线点评行为的门店画像。本文利用用户选购行为数据以及依据本文挖掘的在线点评行为数据构建整个门店画像的指标体系。并给出了门店画像指标建模的思路和实际生产应用的建议。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;F724.6


本文编号:1187783

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/1187783.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户daa8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com