基于电商平台的产品评论大数据获取及应用
本文关键词:基于电商平台的产品评论大数据获取及应用,由笔耕文化传播整理发布。
【摘要】:随着电子商务的迅速发展,网上购物变得越来越频繁,各电商平台每天都会产生大量的交易数据和用户评论数据,对于用户评论数据,其中蕴藏着许多有价值的信息,如产品的缺陷信息、用户的需求信息等。对此,本文针对电商平台中产品评论大数据获取及应用进行了深入研究,通过提取产品评论大数据中各属性词的评价观点和意见,将提取的观点经过整合后生成评价摘要,以简洁、易读的形成呈现给用户,为顾客购物提供更好的参考和指引,使商家更好地了解顾客需求,提升服务质量,使产品设计人员能够及时了解用户的使用体验,改进产品设计的不足,提升产品质量。对此,本文围绕产品评论大数据的获取、聚类、产品属性词识别、以及评价观点的提取和整合等方面进行了深入研究,将Nutch网络爬虫与Hadoop相结合实现了评论数据的分布式爬取,提高了评论数据的爬取效率;将爬取的评论数据经过预处理后得到评论数据集,采用TF-IDF方法来计算特征词的权重,采用基于向量空间模型的方法来计算评论语句的相似度,并将Canopy聚类算法与K-means聚类算法结合起来使用,采用MapReduce框架来实现这两种算法对评论数据的聚类分析,提高了评论数据的聚类效率和聚类精度。将爬取的海量评论数据经过聚类分析后,得到以产品属性词为主要聚类中心的各个聚类族,采用基于产品属性的评价观点提取方法,将各个聚类族中关于产品属性的评价观点提取出来,经过观点整合后形成评价摘要,以评价摘要的形式呈现给用户,提高了属性词评价观点的可阅读性。为了规范评论语句中属性词观点的提取,本文构建了评论数据的质量评估体系,以确保提取的属性词观点的质量,为观点提取算法的优化提供了参考依据。最后,以XX净水器的评论数据为例,经过聚类分析、属性词观点提取和整合分析,生成了XX净水器的评价摘要,得到了XX净水器拥有的优点和存在的不足,并对提取的属性词评价观点的应用作了简要分析。通过应用测试表明,本文所采取的评论数据的获取和分析方法是正确的和有效的,所提取的各属性词评价观点对设计人员和用户具有重要意义,为电商平台中评论大数据的获取、分析和应用提供了新的思路和方法。
【关键词】:产品评论数据 MapReduce 聚类分析 观点提取
【学位授予单位】:贵州师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 第1章 绪论9-17
- 1.1 引言9
- 1.2 产品评论数据的研究背景9-10
- 1.3 产品评论数据的研究意义10-11
- 1.3.1 产品评论数据研究的理论意义10-11
- 1.3.2 产品评论数据研究的实际意义11
- 1.4 产品评论数据处理的国内外研究现状11-13
- 1.5 产品评论大数据的研究内容及方法13-14
- 1.5.1 产品评论大数据的研究内容13-14
- 1.5.2 产品评论大数据的研究方法14
- 1.6 论文的组织结构14-16
- 1.7 本章小结16-17
- 第2章 产品评论大数据挖掘与处理的相关技术基础17-31
- 2.1 大数据处理的关键技术17-20
- 2.1.1 Hadoop的总体框架17-18
- 2.1.2 基于Map Reduce的数据处理过程18-19
- 2.1.3 基于HDFS分布式文件系统的存取原理19-20
- 2.2 产品评论数据抓取的关键技术20-23
- 2.2.1 Nutch的系统布局20-21
- 2.2.2 Nutch的工作原理21-23
- 2.3 评论网页数据中评论语句的抽取23-25
- 2.3.1 产品评论网页数据的预处理技术23-24
- 2.3.2 产品评论语句的清洗24
- 2.3.3 产品评论数据获取结果评价24-25
- 2.4 实验测试分析25-30
- 2.4.1 实验平台构建25-29
- 2.4.2 实验结果分析29-30
- 2.5 本章小结30-31
- 第3章 基于MAPREDUCE的产品评论数据聚类31-44
- 3.1 基于VSM的评论语句相似度计算32-35
- 3.1.1 特征词的选择32-33
- 3.1.2 评论文本的向量表示33
- 3.1.3 特征权重的计算33-34
- 3.1.4 评论语句的相似性计算34-35
- 3.2 聚类算法设计35-38
- 3.2.1 K-means算法35-37
- 3.2.2 Canopy算法37-38
- 3.3 基于Map Reduce的聚类算法设计与实现38-42
- 3.3.1 基于Map Reduce的Canopy聚类算法实现39-40
- 3.3.2 基于Map Reduce的K-means聚类算法实现40-42
- 3.4 实验设计42-43
- 3.4.1 实验环境42
- 3.4.2 实验过程42-43
- 3.5 本章小结43-44
- 第4章 基于产品属性的评论语句观点提取44-66
- 4.1 评论语句的词法结构分析45-48
- 4.1.1 产品评论语句的划分45-46
- 4.1.2 评论语句的词性标注46-47
- 4.1.3 评论语句的句法结构分析47-48
- 4.2 属性词识别48-54
- 4.2.1 名词短语的标注49
- 4.2.2 最大熵原理49-51
- 4.2.3 特征集的选取51-52
- 4.2.4 最优特征参数和最优模型的求解52
- 4.2.5 基于最大熵模型的名词短语识别52-53
- 4.2.6 属性无关词过滤53-54
- 4.3 评价词的极性分析和属性词的观点提取54-60
- 4.3.1 极性词典的构建54-57
- 4.3.2 评价词的极性分析57-59
- 4.3.3 属性词的评价观点提取59-60
- 4.4 观点的整合60-64
- 4.4.1 属性词的相似度计算61-62
- 4.4.2 评论摘要的生成62-63
- 4.4.3 评价摘要的质量评价63-64
- 4.5 提取结果评估64
- 4.6 本章总结64-66
- 第5章 应用测试分析66-71
- 5.1 XX净水器的评论语句观点分析66-68
- 5.2 评论语句的应用分析68-69
- 5.3 评论语句的应用举例69
- 5.4 本章总结69-71
- 第6章 总结与展望71-73
- 6.1 本文工作总结71-72
- 6.2 未来工作展望72-73
- 致谢73-74
- 参考文献74-80
- 攻读硕士学位期间发表的学术论文80
【相似文献】
中国期刊全文数据库 前10条
1 夏松江;1024至65536道核谱数据获取与处理系统[J];核电子学与探测技术;1987年05期
2 张献州;铁路地理信息系统数据获取技术[J];铁路计算机应用;2001年08期
3 薛辉,孙如霞,尹春勇;网络数据获取方法浅析[J];网络安全技术与应用;2005年08期
4 赵沁平;;自然现象的数据获取与模拟[J];中国科学:信息科学;2011年04期
5 周新志,白荣生,温良弼,黄艳文;一种计算机多道脉冲分析系统中的数据获取接口[J];核电子学与探测技术;1996年04期
6 芮小平,杨崇俊,王盼成;3维城市模型中的数据获取和组织方案研究[J];地理学与国土研究;2002年02期
7 王纪海;基于苹果-Ⅱ微机的数据获取与处理系统[J];中国核科技报告;1988年S2期
8 贾向军 ,王效忠 ,许小明;中子多重性测量数据获取软件的开发[J];中国原子能科学研究院年报;2001年00期
9 张英;互联网下的数据获取和Web获取[J];教育信息化;2004年06期
10 吴剑峰,许祖润,吴世英;多功能网络化核数据获取和处理系统[J];核电子学与探测技术;2005年01期
中国重要会议论文全文数据库 前6条
1 王博亮;张业;王嘉逊;谢杰镇;方青;吴世辉;;中国数字人虚拟眼的数据获取与研究进展[A];人体断面数据获取与图像处理研讨会论文汇编[C];2005年
2 张建国;;日本卫星JERS-1数据获取技术系统[A];空间探测的今天和未来——中国空间科学学会空间探测专业委员会第七次学术会议论文集(上册)[C];1994年
3 骆云飞;王书民;;机载LiDAR系统在道路勘测中的数据获取及应用[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年
4 刘广栋;安琪;刘树彬;;外热式等离子体实验装置数据获取和处理系统[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
5 杨文静;房宗良;李莉;胡洁微;文其林;;基于LabVIEW的谱数据获取软件设计[A];第十五届全国核电子学与核探测技术学术年会论文集[C];2010年
6 林金锌;朱节清;顾连学;乐安全;;XYH-86小面积X荧光涂层测厚仪的数据获取和处理[A];第五次全国核电子学与核探测器学术会议论文集(下)[C];1990年
中国重要报纸全文数据库 前4条
1 范京生;从数据获取与更新到智慧服务[N];中国测绘报;2011年
2 国家测绘地理信息局重庆测绘院 王冬滨;关于开展地理国情监测工作的几点思考[N];中国测绘报;2011年
3 记者 祝桂峰 通讯员 张荣;构建“智慧广州”又添新技术[N];中国矿业报;2012年
4 童国庆;系统控制和数据获取技术在美国哥伦比亚灌区的应用[N];中国水利报;2007年
中国博士学位论文全文数据库 前1条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 亚森·伊斯马伊力;跨语言社会舆情分析的数据获取技术研究[D];新疆大学;2015年
2 陈加洋;基于FPGA硬件算法的核能谱数据获取研究[D];兰州大学;2016年
3 谭文斌;基于电商平台的产品评论大数据获取及应用[D];贵州师范大学;2016年
4 袁学东;团簇特性研究中的多通道实时数据获取和调控[D];四川大学;2000年
5 吴剑峰;网络化、多功能核数据获取和处理系统[D];四川大学;2002年
6 赵东旭;气体中子探测器数据获取与分析软件研制[D];长沙理工大学;2010年
7 卓林;增量式Deep Web数据获取技术研究[D];苏州大学;2011年
8 郭建兵;面向特定领域的Deep Web数据获取技术研究[D];苏州大学;2012年
9 张哲冰;基于C2C网站信誉研究的网络数据获取与实现[D];兰州大学;2008年
10 何家兵;产品检验数据获取、表达及分析技术研究与实现[D];华中科技大学;2007年
本文关键词:基于电商平台的产品评论大数据获取及应用,,由笔耕文化传播整理发布。
本文编号:267192
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/267192.html