基于协同过滤的新闻推荐系统在Hadoop上的研究与实现
本文关键词: 内容聚合平台 推荐系统 协同过滤 基于用户推荐 混合推荐 出处:《郑州大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着信息时代的来临,互联网承载的信息量越来越大,导致了人们在浏览新闻门户网站时,很难找到自己感兴趣的信息。内容聚合平台及推荐系统的出现就是为了解决信息过载的问题。内容聚合平台从各大新闻网站上爬取新闻资讯,储存到本地系统上后,再通过推荐系统推送给平台的用户,为每个用户提供个性化新闻推荐。常规的推荐系统一般基于协同过滤算法,然而,基于协同过滤的热点推荐和基于用户推荐却存在部分瑕疵。常规的热点推荐算法,会将新闻的热度值以固定的衰减系数进行衰减;本文通过测试分析,发现这种算法不能平衡用户流量与热度衰减之间的不均衡性,会导致热点捕捉率很低。而常规的基于用户推荐只使用了协同过滤算法,以近邻用户群为基础对用户进行推荐,在用户兴趣发生改变时会导致推荐结果不准确。本文在建立内容聚合平台的基础上,研究并改进了这两种推荐算法。本文的主要工作和创新点如下:1.建立了一个简单但完善的内容聚合平台,其包括几个子系统:web系统、缓存服务、爬虫、数据库服务以及Hadoop集群,各个子系统间通过相应的协议进行通信;内容聚合平台主要为推荐算法提供服务。2.针对热点推荐算法,本文提出了自适应时间衰减系数的热点新闻推荐,综合考虑了单条新闻流量与系统流量,以此来计算每条新闻的时间衰减系数。测试表明,自适应时间衰减系数的热点推荐算法能有效提高热点捕捉率。最后,对于新入新闻使用了潜在热点挖掘算法以更新热点新闻。3.针对基于用户推荐算法,本文提出了自修正用户模型的基于用户推荐。首先分析出各个用户的近邻用户群,再结合基于项目推荐,为每个用户生成单独的推荐列表;然后,分析用户的浏览历史,利用修正算法定期修正用户模型,以跟踪用户兴趣变化,提供更好的推荐。测试表明,修正算法能在三次迭代内完成对于大多数用户模型的修正,改进后的基于用户推荐算法能提供比常规算法更好的查准率与查全率。最后,本文结合热点新闻推荐,实现了用户个性化推荐,以挖掘用户的潜在兴趣。
[Abstract]:With the advent of the information age, the Internet is carrying more and more information, which leads people to browse news portals. It's hard to find information that you're interested in. Content aggregation platforms and recommendation systems have emerged to solve the problem of information overload. Content aggregation platforms crawl news information from major news websites and store it on local systems. Then push the recommendation system to the users of the platform to provide personalized news recommendation for each user. The conventional recommendation system is usually based on collaborative filtering algorithm, however, The hot spot recommendation based on collaborative filtering and the user recommendation have some defects. The conventional hot spot recommendation algorithm attenuates the calorific value of the news with a fixed attenuation coefficient. It is found that this algorithm can not balance the imbalance between user flow and heat attenuation, which will lead to a very low hot spot capture rate. However, the conventional recommendation based on user recommendation only uses collaborative filtering algorithm, and recommends users on the basis of nearest neighbor user group. Recommendation results can be inaccurate when user interests change. The main work and innovation of this paper are as follows: 1. A simple but perfect content aggregation platform is established, which includes several subsystems: Web system, cache service, crawler, database service and Hadoop cluster. Each subsystem communicates through the corresponding protocols. The content aggregation platform mainly provides services for the recommendation algorithm. 2. Aiming at the hot spot recommendation algorithm, this paper puts forward the adaptive time attenuation coefficient of the hot news recommendation. The time attenuation coefficient of each news is calculated by synthetically considering the single news flow and system traffic. The test results show that the hot spot recommendation algorithm with adaptive time attenuation coefficient can effectively improve the hot spot capture rate. For the new news, we use the latent hotspot mining algorithm to update the hot news. 3. For the user recommendation algorithm, this paper proposes a user recommendation based on self-modified user model. Firstly, the nearest neighbor user groups of each user are analyzed. Combined with project-based recommendations, a separate recommendation list is generated for each user. Then, the browsing history of the user is analyzed, and the user model is regularly modified by the modified algorithm to track the change of user interest and provide better recommendations. The modified algorithm can complete the revision of most user models in three iterations, and the improved user-based recommendation algorithm can provide better recall and recall than the conventional algorithm. Finally, this paper combines the hot news recommendation. The user personalized recommendation is implemented to tap the potential interest of the user.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 徐义峰;陈春明;徐云青;;一种基于分类的协同过滤算法[J];计算机系统应用;2007年01期
2 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
3 王岚;翟正军;;基于时间加权的协同过滤算法[J];计算机应用;2007年09期
4 曾子明;张李义;;基于多属性决策和协同过滤的智能导购系统[J];武汉大学学报(工学版);2008年02期
5 张富国;;用户多兴趣下基于信任的协同过滤算法研究[J];小型微型计算机系统;2008年08期
6 侯翠琴;焦李成;张文革;;一种压缩稀疏用户评分矩阵的协同过滤算法[J];西安电子科技大学学报;2009年04期
7 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
8 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
9 徐红;彭黎;郭艾寅;徐云剑;;基于用户多兴趣的协同过滤策略改进研究[J];计算机技术与发展;2011年04期
10 焦晨斌;王世卿;;基于模型填充的混合协同过滤算法[J];微计算机信息;2011年11期
相关会议论文 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
相关重要报纸文章 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 ;大数据如何“落地”[N];中国新闻出版报;2014年
8 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
相关博士学位论文 前10条
1 纪科;融合上下文信息的混合协同过滤推荐算法研究[D];北京交通大学;2016年
2 程殿虎;基于协同过滤的社会网络推荐系统关键技术研究[D];中国海洋大学;2015年
3 于程远;基于QoS的Web服务推荐技术研究[D];上海交通大学;2015年
4 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
5 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
6 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
7 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
8 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年
9 田刚;融合维基知识的情境感知Web服务发现方法研究[D];武汉大学;2015年
10 胡亮;集成多元信息的推荐系统建模方法的研究[D];上海交通大学;2015年
相关硕士学位论文 前10条
1 让家恒;基于协同过滤的新闻推荐系统在Hadoop上的研究与实现[D];郑州大学;2017年
2 梁四香;基于改进协同过滤的推荐系统研究与实现[D];郑州大学;2017年
3 吕杰;一种融合用户上下文信息和评分倾向度的协同过滤推荐系统[D];天津大学;2016年
4 张路一;推荐系统中基于相似性计算的协同过滤算法研究[D];郑州大学;2017年
5 邹腾飞;基于多特征融合的混合协同过滤算法研究[D];西南大学;2015年
6 于钰雯;基于项目凝聚层次聚类的协同过滤推荐算法研究[D];辽宁大学;2015年
7 杜文刚;基于多属性评分的协同过滤推荐算法研究[D];辽宁大学;2015年
8 揭正梅;基于协同过滤的高校个性化就业推荐系统研究[D];昆明理工大学;2015年
9 高慧敏;融合占有度的时间遗忘协同过滤混合推荐算法研究[D];燕山大学;2015年
10 苏靖涵;面向SaaS多租户的动态推荐方法研究[D];辽宁大学;2015年
,本文编号:1555334
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1555334.html