大数据环境下基于k-means的混合推荐算法应用研究
发布时间:2020-08-12 01:48
【摘要】:随着大数据时代的到来,网上购物逐渐深入到我们的衣、食、住、行方面,线下交易逐渐转变成线上交易,我们足不出户就可以解决日常生活所需,电子商务平台的发展给我们的生活带来了很大的便利。各大电子商务平台每天存在大量的浏览、交易数据,这些海量的信息隐藏着许多对用户或者商家有价值的数据,这些有价值的数据可以经过转化给用户和商家提供更好的服务。大量的数据是从平台的日志、数据库或者爬虫出来的数据,是没有经过处理的,以人力从这些数据中获取有价值的信息提高服务是无法实现的,需要一些科学的方法来支持完成,主要的推荐算法有基于内容的推荐算法、协同过滤推荐算法和混合推荐算法等。本文针对这些主要的推荐方法进行分析比较过后,发现由于用户、商品数据量大但是评分数据少,会导致评分矩阵稀疏问题,这样一来会影响推荐算法的精确度。因此使用传统的推荐算法不能给用户带来更好的服务,也不能给商家创造更多的价值,需要更适合的算法来提高服务质量。传统的协同过滤算法主要思想是基于历史数据产生用户-项目评分矩阵找到与目标用户相似的用户并对其进行项目推荐,评分矩阵在电影、图书、音乐等应用领域可以看成是从数字1到5的直观的评分数据。但是在电子商务的环境下,用户-项目的评分矩阵不是显式的数字表现形式,而是基于用户行为的隐式表现形式。针对电子商务领域,本文是基于用户行为画像提出的一种改进的协同过滤算法,利用改进的算法计算用户之间的相似度。在本文中通过分析用户的行为、商品的特征和用户-商品的交互特征建立用户行为的画像模型,基于构建的用户画像模型提出一种改进的协同过滤算法,这个算法是把用户的网络购物行为和基于时间的用户网络购物行为频率混合起来计算用户之间的相似度,再与k-means聚类算法融合,根据融合算法完成用户的项目推荐。最后通过计算算法的准确率、召回率和F1值进行算法验证性实验,最终结果表明算法相较于经典的协同过滤算法的准确率有了大幅度的提高,证明了本文所提算法的有效可行性。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
图1.1逦2012-2017上半年中国电子商务市场交易规模逡逑在巨大的交易量中,包含了人们的衣、食、住、行的各个方面。人们的生活逡逑越来越与互联网密不可分的同时,也会被互联网过量杂乱的信息所干扰,从海量逡逑的数据中找到自己需要的信息往往会耗费网络用户大量的时间。现在大多的互联逡逑
18逦end邋for逡逑19逦return邋centeroids,clusterAssment;//输出最终聚类中心和矩阵逡逑k-means聚类算法示例图如图4.2所示,通过聚类算法把数据分为3类即聚逡逑类中心个数K值为3
逑5.4算法流程总结逡逑算法流程如图5.邋2所示,通过对原始数据的预处理,再进行用户、商品、交逡逑互行为的特征提取,得出训练数据集合和测试数据集合,根据训练数据集合的数逡逑据进行用户聚类,利用聚类结果对每一类进行协调过滤算法计算相似用户,得出逡逑预测结果,并在测试数据集合上测试预测结果的精准度。逡逑训练集数据逡逑逦^逦逡逑用户聚类逡逑逦^逦逡逑协同过滤预测逡逑-逦i逡逑逦^逦逡逑评估预测结果逡逑图5.邋2算法总流程图逡逑本论文的实验的硬件环境是:Intel邋(R)邋Core邋(TM)邋i5-6300HQCPU@2.3GHz,逡逑内存4G;软件环境是Windowsl0/64位操作系统,^u发语言是Python编程语言。逡逑5.5实验结果与分析逡逑经过上述实验过程,得到推荐预测结果,如下表所示,TOP-N结果选取前五逡逑个预测结果进行推荐。逡逑表5.3邋T0P-N结果推荐表逡逑User_id逦Iteml逦Item2逦Item3逦Item4
本文编号:2789867
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
图1.1逦2012-2017上半年中国电子商务市场交易规模逡逑在巨大的交易量中,包含了人们的衣、食、住、行的各个方面。人们的生活逡逑越来越与互联网密不可分的同时,也会被互联网过量杂乱的信息所干扰,从海量逡逑的数据中找到自己需要的信息往往会耗费网络用户大量的时间。现在大多的互联逡逑
18逦end邋for逡逑19逦return邋centeroids,clusterAssment;//输出最终聚类中心和矩阵逡逑k-means聚类算法示例图如图4.2所示,通过聚类算法把数据分为3类即聚逡逑类中心个数K值为3
逑5.4算法流程总结逡逑算法流程如图5.邋2所示,通过对原始数据的预处理,再进行用户、商品、交逡逑互行为的特征提取,得出训练数据集合和测试数据集合,根据训练数据集合的数逡逑据进行用户聚类,利用聚类结果对每一类进行协调过滤算法计算相似用户,得出逡逑预测结果,并在测试数据集合上测试预测结果的精准度。逡逑训练集数据逡逑逦^逦逡逑用户聚类逡逑逦^逦逡逑协同过滤预测逡逑-逦i逡逑逦^逦逡逑评估预测结果逡逑图5.邋2算法总流程图逡逑本论文的实验的硬件环境是:Intel邋(R)邋Core邋(TM)邋i5-6300HQCPU@2.3GHz,逡逑内存4G;软件环境是Windowsl0/64位操作系统,^u发语言是Python编程语言。逡逑5.5实验结果与分析逡逑经过上述实验过程,得到推荐预测结果,如下表所示,TOP-N结果选取前五逡逑个预测结果进行推荐。逡逑表5.3邋T0P-N结果推荐表逡逑User_id逦Iteml逦Item2逦Item3逦Item4
【参考文献】
相关期刊论文 前2条
1 聂林海;;我国电子商务发展的特点和趋势[J];中国流通经济;2014年06期
2 陈志敏;李志强;;基于用户特征和项目属性的协同过滤推荐算法[J];计算机应用;2011年07期
相关博士学位论文 前1条
1 余永红;融合多源信息的推荐算法研究[D];南京大学;2017年
本文编号:2789867
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2789867.html