基于Hadoop的餐饮商户推荐系统分布式优化设计与实现

发布时间:2021-08-29 05:47
  随着互联网大数据分析平台的高速发展,各行各业尤其是民生相关行业的用户数据分析掀起了变革的浪潮。“大数据”分析使得我们的碎片时间得以有效利用,传统的生活方式正在发生颠覆性的变化。如何有效地在海量的信息中准确获取所需的信息,并向意向人群有效推荐所需信息,使信息获取与搜索更高效,这是当下推荐系统研究的核心内容。本文通过对餐饮行业用户的消费习惯,针对两个关键属性(1)用户对餐饮商户的评分和(2)餐饮商户的地理坐标信息展开推荐系统的研究。通过对当下推荐系统的国内外研究现状以及推荐系统常用的算法进行原理分析,选择与关键属性关联度最高的基于物品的协同过滤算法和Geo Hash算法进行深度研究和应用。通过用户对餐饮商户评分计算出餐饮商户之间相似度,利用相似度得出推荐度评分,再通过Geo Hash算法快速匹配用户的实时坐标与餐饮商户的距离,从而推荐并满足用户所需的餐饮商户列表。因在单机环境在处理大数据时由于硬件的限制无法快速得出推荐结果,故本文提出了基于Hadoop平台的分布式存储运算框架对基于物品的协同过滤算法和Geo Hash算法进行优化,并通过实验验证了优化后推荐算法通过调度集群中多台服务器并行运... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的餐饮商户推荐系统分布式优化设计与实现


修正的余弦向量相似度计算结果

商户,目标用户,餐饮


第3章推荐系统的算法研究-26-获取餐饮商户之间的相似度后,预测目标用户u对候选推荐物品j的推荐度评分并剔除掉那些被目标用户u已经评分过的餐饮商户。向目标用户14推荐的餐饮商户列表如图3-4所示。图3-4目标用户14的推荐商户及推荐分列表精确率的计算方法在第3.1.3节中已经提出,计算精确率的目的是验证推荐给目标用户的餐饮商户,目标用户是否真的去消费过并做了评分(目标用户在该餐饮商户消费后才能对其进行评分)。基于此逻辑将本次研究用的数据集按时间进行划分比例为8:2的训练集:测试集拆分;训练集的目标是用于找出为目标用户u推荐的餐饮商户,而测试集的目标则是验证目标用户u是否对推荐的餐饮商户进行了评分。考虑到推荐算法的稳定性,在不同数据处理量下进行指标评价,这里考虑通过相似餐饮商户数量K作为数据处理量的大小,当K取值为5、10、20、40、80和160时,对应的精确率、召回率和F值的指标评价如表3-8所示。从表3-8可以看出,使用此推荐算法的精确率平均值在6%左右,召回率平均值在1.7%左右,F值平均值在3%左右,符合本次研究的推荐算法要求。

商户,地理,坐标,二进制编码


第3章推荐系统的算法研究-29-3.2.2GeoHash算法的编码实现与结果展示本次餐饮商户的地理坐标信息格式如表3-6所示:表3-6餐饮商户的地理坐标信息restaurantIdlatitudelongitude123.009262113.3413223.122261113.2674………13126223.181535113.31881GeoHash的编码实现过程主要分为以下几个步骤:(1)首先初始化base32编码对应的字符:finalstaticchar[]digits={"0","1","2","3","4","5","6","7","8","9","b","c","d","e","f","g","h","j","k","m","n","p","q","r","s","t","u","v","w","x","y","z"},并建立字符与数字之间的映射关系;(2)获取需要处理的经纬度坐标;(3)对经纬度区间分别进行30次二分法区间,并且定义左区间为二进制编码0,右区间为二进制编码1,并保存这些二分法区间和二进制编码;(4)根据需要处理的经纬度坐标,查找按(3)中的二分法区间匹配获取对应的经纬度二进制编码;(5)将(4)中获取的经纬度二进制编码进行混编,奇数位放经度的二进制编码,偶数位放纬度的二进制编码,得到混编后的GeoHash二进制编码;(6)将(5)中获取的GeoHash二进制编码,按每5位二进制映射一位base32编码,最后得到12位base32编码的字符串,即为目标经纬度坐标的GeoHash编码。编码后的结果如图3-5所示:图3-5GEOHASH编码后商户地理坐标

【参考文献】:
期刊论文
[1]基于物品的改进协同过滤算法及应用[J]. 邓园园,吴美香,潘家辉.  计算机系统应用. 2019(01)
[2]协同过滤推荐算法研究进展[J]. 翁小兰,王志坚.  计算机工程与应用. 2018(01)
[3]云计算框架的海量数据查询技术研究[J]. 杨芬.  吕梁学院学报. 2017(02)
[4]云计算中Hadoop技术研究与应用综述[J]. 夏靖波,韦泽鲲,付凯,陈珍.  计算机科学. 2016(11)
[5]基于Geohash的面数据区域查询[J]. 金安,程承旗,宋树华,陈波.  地理与地理信息科学. 2013(05)
[6]Hadoop平台在云计算中的应用[J]. 王宏宇.  软件. 2011(04)
[7]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏.  自然科学进展. 2009(01)

博士论文
[1]基于协同过滤的推荐算法研究[D]. 刘青文.中国科学技术大学 2013

硕士论文
[1]基于Hadoop的智慧物流平台的车辆调度优化算法的设计与实现[D]. 陈燕.中国科学院大学(中国科学院沈阳计算技术研究所) 2018
[2]基于大数据分析的推荐系统研究[D]. 房璐璐.北京邮电大学 2015
[3]基于Apache Mahout的推荐算法的研究与实现[D]. 常江.电子科技大学 2013
[4]基于Mahout的推荐系统的研究与实现[D]. 马宁.兰州大学 2013
[5]基于hadoop的推荐系统设计与实现[D]. 唐真.电子科技大学 2013
[6]基于Hadoop的大型网站海量数据的统计与应用[D]. 吴金虎.南京大学 2012



本文编号:3370036

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3370036.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f4f4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com