基于Hadoop架构的商业推荐引擎协同过滤算法设计与实现
本文选题:推荐引擎 + Hadoop ; 参考:《电子科技大学》2016年硕士论文
【摘要】:推荐系统已被广泛使用在互联网的各个方面,其中电子商务的高速发展离不开个性化地推荐系统。尤其近年来,推荐系统越来越明显且有力地推动电子商务的业务增长。基于协同过滤的推荐算法是当今电子商务推荐系统中最被广泛采用的关键技术之一。在本文中通过全面介绍和研究当今推荐系统采用的主要推荐算法,例如基于内容、协同过滤算法等,以及学习了大数据处理平台Hadoop,简要介绍Hadoop的工作原理和Map Reduce计算方式和HDFS分布式存储平台。针对基于内存的协同过滤算法的缺点,从相似度和加权平均方法切入,提出若干算法改进,改善推荐质量和提高性能。对于采用皮尔逊系数的协同过滤算法来说,就是当两个用户同时评分的项目数目比较少的时候,那么皮尔逊相关系数表现不佳,通过引入默认预测值能较好地解决这个问题;当某个项目被很多人同时评分,那么它容易和别的项目评分度较高,通过采取TF-IDF来解决;通过引入指数算法,来惩罚相似度低的项目的权重来提高推荐质量;Weighted Slope One算法在保持预测准确度的情况下提高系统性能。在协同过滤推荐算法中,因稀疏的用户项目评分矩阵而导致的矩阵规模膨胀是一个十分棘手的问题。稀疏的用户评价矩阵大大加重系统计算的时间。在本文中通过研究各种对矩阵降维的方法,例如奇异值矩阵分解技术,非负矩阵因式分解等概率统计模型,解决稀疏矩阵的计算问题。由于电子商务平台的迅速发展带来的几千万的用户数和数以亿计的商品量(例如亚马逊商城,天猫商城和京东商城等),对现有的推荐系统运行性能提出了严峻的挑战。依靠单机的推荐系统难以承受如此海量用户和数据的计算量,因此如今电子商务网站普遍采用分布式集群计算机来实现商品推荐引擎。本文尝试基于Hadoop实现一个具有伸缩性、高弹性、高容灾性、稳定的商品推荐引擎的设计和实现。
[Abstract]:Recommendation system has been widely used in all aspects of the Internet, among which the rapid development of e-commerce can not be separated from personalized recommendation system. Especially in recent years, recommendation system is more and more obvious and powerful to promote the business growth of e-commerce. Collaborative filtering-based recommendation algorithm is one of the most widely used key technologies in e-commerce recommendation systems. In this paper, we introduce and study the main recommendation algorithms, such as content-based, collaborative filtering algorithms, which are used in today's recommendation systems. We also study the big data processing platform Hadoop, and briefly introduce the working principle of Hadoop, the Map Reduce computing method and the HDFS distributed storage platform. Aiming at the shortcomings of the memory-based collaborative filtering algorithm, this paper proposes some improvements from similarity and weighted average methods to improve the recommendation quality and performance. For the collaborative filtering algorithm with Pearson coefficient, when the number of items scored by two users at the same time is relatively small, then Pearson correlation coefficient is not good, through the introduction of default prediction value can solve this problem better; When a project is rated by many people at the same time, it is easy to score higher with other items, by adopting TF-IDF; by introducing an exponential algorithm. To punish the weights of items with low similarity to improve the quality of recommendation weighted Slope One algorithm improves system performance while maintaining prediction accuracy. In collaborative filtering recommendation algorithm, the expansion of matrix size caused by sparse user item scoring matrix is a very difficult problem. The sparse user evaluation matrix greatly increases the computing time of the system. In this paper, we study various methods to reduce the dimension of matrices, such as singular value matrix decomposition technique, non-negative matrix factorization and other probability and statistical models, to solve the problem of sparse matrix calculation. Due to the rapid development of e-commerce platform, tens of millions of users and hundreds of millions of goods (such as Amazon Mall, Tmall Mall and JingDong Mall, etc.) have posed a severe challenge to the performance of the existing recommendation system. It is difficult for a recommendation system to rely on a single computer to support such a huge amount of users and data, so nowadays e-commerce websites generally use distributed cluster computers to implement the commodity recommendation engine. This paper attempts to design and implement a product recommendation engine with scalability, high flexibility, high disaster tolerance and stability based on Hadoop.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
2 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
3 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
4 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
5 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
6 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
7 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
8 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
10 郑婕;鲍海琴;;基于协同过滤推荐技术的个性化网络教学平台研究[J];科技风;2012年06期
相关会议论文 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
相关博士学位论文 前10条
1 纪科;融合上下文信息的混合协同过滤推荐算法研究[D];北京交通大学;2016年
2 程殿虎;基于协同过滤的社会网络推荐系统关键技术研究[D];中国海洋大学;2015年
3 于程远;基于QoS的Web服务推荐技术研究[D];上海交通大学;2015年
4 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
5 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
6 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
7 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
8 高e,
本文编号:1908811
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1908811.html