分布式爬虫下基于用户评论的商品标签提取
发布时间:2021-09-05 22:29
随着网络新时代的到来,各种智能终端的不断普及,网上购物正越来越成为现代人们主流的购物方式。在消费者进行网络购物的同时,也产生了海量的评论数据,而这些评论数据中蕴含着巨大的挖掘价值:对商品厂家来说,评论数据能够直观地反应出用户对商品特性的评价,能够根据用户的喜好调整产品特性,从而更好地发展自身商品;对电商平台来说,可以根据评论数据提取商品标签,提高用户的购物体验,还可以根据用户兴趣进行相关推荐;对用户自身来说,评论数据是用户了解商品特征的主要信息,用户可以参考评论数据选择自己想要的商品。对用户评论数据进行挖掘,提取出商品标签,可以广泛应用于商品推荐、个性化搜索等场景,有利于商品厂家分析产品数据,有利于提高用户的购物体验,有利于增加平台用户流量。因此,对用户评论数据挖掘进行研究,可以更加有效地提高商品标签的准确性和全面性,在现实生活中,具有十分巨大的价值和深远的意义。据此,本文提出了分布式爬虫下基于用户评论的商品标签提取系统。本文首先,针对海量的用户评论数据,搭建基于改进的布隆过滤器的分布式爬虫系统,对用户评论数据进行高效地抓取和存储。然后结合改进的TF-IDF算法和依存语法对用户评论数据...
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
URL 数量对 BF 和 IBF 误判率的影响对比
图 4.7 URL 数量对 BF 和 IBF 误判率的影响对比 可以看出,在相同的情况下,改进的布隆过滤器的误判率低于经典的是,当 URL 的数量达到临界值时,存在一个问题,即传统的布隆过滤改进的布隆过滤器则可以很好地解决这个问题。们将位数组 m 的大小设置为 131072,将 URL 的数量设置为 10000,的数组的维数 t 设置为 3,BF 和 IBF 的误判率(False Positive Rate)的变化如图 4.8 所示:
南京邮电大学硕士研究生学位论文 第五章 基于用户评论的关键词提取5.5.2 TF-IDF 与改进的 TF-IDF 性能对比本文分别对京东中美妆、洗护、生鲜、百货、家具、运动、手机和图书等九类商品类别的评论数据进行爬取,其中每个类别各选取 3 个商品进行抓取,并对抓取的评论数据进行特征对象词抽取,最后分别计算两种算法提取特征词的准确率、召回率和 F1 值,对每个类别的的三个商品的计算结果取均值,然后进行对比,结果如下:
【参考文献】:
期刊论文
[1]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[2]网购农产品评论中的消费者情感标签抽取方法研究[J]. 李良强,李开明,白梨霏,曹云忠,吴亮. 电子科技大学学报(社科版). 2018(04)
[3]基于Scopus检索和TFIDF的论文关键词自动提取方法[J]. 陈列蕾,方晖. 南京大学学报(自然科学). 2018(03)
[4]基于语义分析的情感计算技术研究进展[J]. 饶元,吴连伟,王一鸣,冯聪. 软件学报. 2018(08)
[5]一种基于快速k-近邻的最小生成树离群检测方法[J]. 朱利,邱媛媛,于帅,原盛. 计算机学报. 2017(12)
[6]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[7]基于密度差分的自动聚类算法[J]. 陈朝威,常冬霞. 软件学报. 2018(04)
[8]一种基于贝叶斯分类的个性化导购推荐算法[J]. 马汉达,戴季国,薛艳飞. 信息技术. 2017(11)
[9]基于卷积神经网络和SVM的中国画情感分类[J]. 王征,李皓月,许洪山,孙美君. 南京师大学报(自然科学版). 2017(03)
[10]基于网格聚类的情感分析研究[J]. 缪裕青,高韩,刘同来,文益民. 中国科学技术大学学报. 2016(10)
博士论文
[1]基于局部中心量度的聚类算法研究[D]. 王志强.华南理工大学 2018
硕士论文
[1]面向高维数据的聚类算法改进研究[D]. 蒋君妍.南京邮电大学 2018
[2]基于Hadoop平台的机器学习聚类算法研究[D]. 孙超.西安电子科技大学 2018
[3]几种新聚类算法的研究[D]. 钟俊坤.西安电子科技大学 2018
[4]中文网络评论中提取产品特征的PMI-Strapping算法研究[D]. 祖李军.中国科学技术大学 2015
[5]基于AP算法的文本聚类研究与实现[D]. 魏彦婧.东北大学 2014
[6]文本情感分析在产品评论中的应用研究[D]. 魏慧玲.北京交通大学 2014
[7]基于ALICE的研究生招生咨询智能聊天机器人研究与实现[D]. 冯德虎.西南交通大学 2013
[8]基于句法分析的产品评论挖掘研究[D]. 黄鑫.北京邮电大学 2011
本文编号:3386204
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
URL 数量对 BF 和 IBF 误判率的影响对比
图 4.7 URL 数量对 BF 和 IBF 误判率的影响对比 可以看出,在相同的情况下,改进的布隆过滤器的误判率低于经典的是,当 URL 的数量达到临界值时,存在一个问题,即传统的布隆过滤改进的布隆过滤器则可以很好地解决这个问题。们将位数组 m 的大小设置为 131072,将 URL 的数量设置为 10000,的数组的维数 t 设置为 3,BF 和 IBF 的误判率(False Positive Rate)的变化如图 4.8 所示:
南京邮电大学硕士研究生学位论文 第五章 基于用户评论的关键词提取5.5.2 TF-IDF 与改进的 TF-IDF 性能对比本文分别对京东中美妆、洗护、生鲜、百货、家具、运动、手机和图书等九类商品类别的评论数据进行爬取,其中每个类别各选取 3 个商品进行抓取,并对抓取的评论数据进行特征对象词抽取,最后分别计算两种算法提取特征词的准确率、召回率和 F1 值,对每个类别的的三个商品的计算结果取均值,然后进行对比,结果如下:
【参考文献】:
期刊论文
[1]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波. 计算机工程与应用. 2019(02)
[2]网购农产品评论中的消费者情感标签抽取方法研究[J]. 李良强,李开明,白梨霏,曹云忠,吴亮. 电子科技大学学报(社科版). 2018(04)
[3]基于Scopus检索和TFIDF的论文关键词自动提取方法[J]. 陈列蕾,方晖. 南京大学学报(自然科学). 2018(03)
[4]基于语义分析的情感计算技术研究进展[J]. 饶元,吴连伟,王一鸣,冯聪. 软件学报. 2018(08)
[5]一种基于快速k-近邻的最小生成树离群检测方法[J]. 朱利,邱媛媛,于帅,原盛. 计算机学报. 2017(12)
[6]中文微博情感分析研究与实现[J]. 李勇敢,周学广,孙艳,张焕国. 软件学报. 2017 (12)
[7]基于密度差分的自动聚类算法[J]. 陈朝威,常冬霞. 软件学报. 2018(04)
[8]一种基于贝叶斯分类的个性化导购推荐算法[J]. 马汉达,戴季国,薛艳飞. 信息技术. 2017(11)
[9]基于卷积神经网络和SVM的中国画情感分类[J]. 王征,李皓月,许洪山,孙美君. 南京师大学报(自然科学版). 2017(03)
[10]基于网格聚类的情感分析研究[J]. 缪裕青,高韩,刘同来,文益民. 中国科学技术大学学报. 2016(10)
博士论文
[1]基于局部中心量度的聚类算法研究[D]. 王志强.华南理工大学 2018
硕士论文
[1]面向高维数据的聚类算法改进研究[D]. 蒋君妍.南京邮电大学 2018
[2]基于Hadoop平台的机器学习聚类算法研究[D]. 孙超.西安电子科技大学 2018
[3]几种新聚类算法的研究[D]. 钟俊坤.西安电子科技大学 2018
[4]中文网络评论中提取产品特征的PMI-Strapping算法研究[D]. 祖李军.中国科学技术大学 2015
[5]基于AP算法的文本聚类研究与实现[D]. 魏彦婧.东北大学 2014
[6]文本情感分析在产品评论中的应用研究[D]. 魏慧玲.北京交通大学 2014
[7]基于ALICE的研究生招生咨询智能聊天机器人研究与实现[D]. 冯德虎.西南交通大学 2013
[8]基于句法分析的产品评论挖掘研究[D]. 黄鑫.北京邮电大学 2011
本文编号:3386204
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3386204.html