数据数量与质量敏感的推荐系统若干问题研究
本文选题:推荐系统 + 数据数量 ; 参考:《浙江大学》2016年博士论文
【摘要】:随着互联网特别是移动互联网数据的持续爆炸式增长,信息过载现象越来越严重,使得用户从海量数据中找到真正感兴趣的信息的代价越来越高。为了解决这一问题,个性化推荐系统应运而生。推荐系统通过挖掘用户的历史行为数据对其兴趣和偏好进行建模,从而可以帮助用户快速地发现其可能感兴趣的、有价值的信息。在过去的二十多年里,推荐系统得到了学术界和工业界的极大关注,已经被广泛应用于包括电子商务、社交网站、影视娱乐、在线阅读、网络课程学习等在内的不同应用领域,相关的推荐技术也在不断地发展和演进。时至今日,许多研究学者仍然致力于设计更高效、更有效、更普适的推荐算法。现有的推荐算法通常将收集到的所有用户行为数据不加处理或简单地进行预处理后就作为算法的输入进行统一的推荐建模。然而,在真实应用的推荐系统中,不同用户的行为数据在数量和质量方面都会呈现出不同程度的差异性。系统中往往同时存在行为数据稀少的"冷启动"用户和行为数据丰富的活跃用户,与此同时,不同用户的行为数据中也会存在不同程度的噪声数据。对这些数量和质量存在显著差异的用户进行统一的推荐建模,一方面会因为无法同时涵盖不同特点的数据而降低推荐算法的准确性,另一方面,随着系统中用户行为数据的不断累积,将收集到的所有数据用来建模也会带来很高的计算代价。因此,敏感地捕捉并建模用户行为数据数量和质量差异性的数据数量和质量敏感的推荐方法的研究,对大数据环境下的推荐系统具有非常重要的理论与应用价值。本文围绕数据数量与质量敏感的推荐系统的若干问题展开研究,主要工作包括:1)提出了一种数据数量敏感的推荐方法针对不同用户在行为数据数量方面存在的差异,研究用户行为数据的数量对不同推荐算法的影响,表明将用户(尤其是活跃用户)的所有行为数据用于推荐建模是没有必要的。然后,从机器学习的角度出发剖析了需要多少用户行为数据进行建模就足以产生有效的推荐。最后,提出一系列用户行为数据的抽样方法来选择适量的、有代表性的用户行为数据进行数据数量敏感的推荐建模。实验结果表明,该方法在总体上提升了推荐的准确性并降低了计算代价。2)提出了一种基于用户行为一致性的分组迁移推荐方法针对不同用户的行为数据存在不同程度的噪声数据的现象,引入"用户行为一致性"的概念来衡量用户行为数据中含有噪声数据的程度,进而提出了一种基于用户行为一致性的分组迁移推荐方法。在该方法中,首先,基于用户行为一致性将用户进行分组。然后,对不同分组的用户行为数据所构成的数据子集进行有针对性的噪声处理和推荐建模。最后,借助迁移学习技术实现高质量数据子集对低质量数据子集的辅助建模。实验结果表明,该方法对低质量数据分组的推荐性能有显著的提升,进而提升了整体的推荐性能。3)提出了一种基于语义可比物品对的排序推荐方法BPR(Bayesian Personalized Ranking)是解决单类协同过滤问题的主流算法框架,在隐式反馈推荐中得到了广泛的应用。然而,BPR会选择没有意义的噪声物品对数据进行建模而降低了模型的准确性和收敛速度。针对这些问题,本文提出了"语义可比物品对"的概念,并因此提出了一种基于语义可比物品对的排序推荐算法(Semantic enhanced BPR,SeBPR)。该方法通过物品内容信息学习物品的语义向量,进而选择语义可比较的、高质量的物品对参与模型训练。实验表明,SeBPR可以利用相对较少的物品对得到快速收敛的、稳定的模型。4)提出了一种数据数量和质量敏感的推荐框架在上述研究工作的基础上,本文进一步提出了一种数据数量和质量敏感的推荐框架,以解决现有推荐算法没有充分考虑用户行为数据在数量和质量方面差异性的问题。该框架包括对用户行为数据的数量和质量的度量、基于数据数量和质量度量的用户分组、对不同分组的数据子集有针对性的数据预处理(数据抽样处理和噪声数据处理)和推荐建模以及分组模型的迁移学习。实验结果表明,该推荐框架可以提高不同算法在评分预测和TopN推荐问题上的推荐性能。
[Abstract]:With the continuous and explosive growth of the Internet, especially the mobile Internet data, the information overload is becoming more and more serious, which makes the users find the real interesting information from the mass data more and more. In order to solve this problem, the personalized recommendation system emerges as the times require. Its interests and preferences are modeled to help users quickly discover their potential and valuable information. In the past more than 20 years, the recommendation system has received great attention from academia and industry, and has been widely used in e-commerce, social networking sites, film and television entertainment, online reading, and online course learning. The relevant recommendation technology is developing and evolving continuously. Today, many researchers are still devotes to the design of more efficient, more effective, and more universal recommendation algorithms. The existing recommendation algorithms usually take all the collected user behavior data without processing or simply preprocessing. The input of the algorithm is a unified recommendation modeling. However, in the actual application, the behavior data of different users will show different degrees of difference in terms of quantity and quality. A unified recommendation modeling for users with significant differences in quantity and quality will reduce the accuracy of the recommended algorithm on the one hand because of the inability to cover different features of the data at the same time, on the other hand, with the continuous accumulation of user behavior data in the system, it will be collected. Therefore, the study of sensitive capture and modeling of the number of user behavior data and the quantity of quality differences and the quality sensitive recommendation methods are of great theoretical and practical value to the recommendation system in large data environments. This paper focuses on the number of data. Several problems of the quality sensitive recommendation system are studied. The main work includes: 1) a data quantity sensitive recommendation method is proposed for different users' differences in the number of behavior data, the influence of the number of user behavior data on different recommendation algorithms, and it shows that all the users (especially active users) There is no need for behavioral data to be used to recommend modeling. Then, from the point of view of machine learning, the analysis of how many user behavior data is needed to create an effective recommendation. Finally, a sampling method of a series of user behavior data is proposed to select appropriate amount of user behavior data to be sensitive to the quantity of data. The experimental results show that the proposed method in general improves the accuracy of the recommendation and reduces the computational cost.2). A packet migration recommendation method based on user behavior consistency is proposed for the presence of noise data of different degrees for different users' behavior data, and the concept of "user behavior consistency" is introduced. The degree of noise data in user behavior data is measured, and then a group migration recommendation method based on user behavior consistency is proposed. In this method, first, users are grouped based on user behavior consistency. Then, the data subset of user behavior data of different groups is targeted to noise. Finally, a high quality data subset is modeled as an auxiliary model for low quality data subsets with the help of migratory learning techniques. The experimental results show that the proposed method has a significant improvement in the recommendation performance of low quality data packets and the overall recommendation performance.3).) a sort of sort recommendation based on Semantic comparable item pairs is proposed. Method BPR (Bayesian Personalized Ranking) is the mainstream algorithm framework for solving single class collaborative filtering problems. It has been widely used in implicit feedback recommendation. However, BPR will select non meaningful noise items to model the data and reduce the accuracy and convergence speed of the model. Semantic enhanced BPR (SeBPR), which is based on the semantic comparable item pair (SeBPR), is proposed in comparison with the concept of "object". This method studies the semantic vector of items through the content information of the item, and then selects the semantically comparable, high quality item to participate in the model training. The experiment shows that SeBPR can make use of relative comparison. On the basis of the above research work, a data quantity and quality sensitive recommendation framework is proposed for the fast convergent, stable model.4). This paper further proposes a data quantity and quality sensitive recommendation framework to solve the existing recommendation algorithms that do not fully consider the number and quality of user behavior data. The framework includes the measurement of the quantity and quality of the user's behavior data, the group of users based on the quantity and quality of the data, and the targeted data preprocessing (data sampling and noise data processing) and the recommendation modeling and the migration learning of the packet model for the data subsets of different groups. The results show that the recommendation framework can improve the recommendation performance of different algorithms in scoring prediction and TopN recommendation problems.
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 ;电商推荐系统进阶[J];IT经理世界;2013年11期
2 米可菲;张勇;邢春晓;蔚欣;;面向大数据的开源推荐系统分析[J];计算机与数字工程;2013年10期
3 脱建勇;王嵩;李秀;刘文煌;;精品课共享中的推荐系统框架与实现[J];计算机工程与设计;2006年17期
4 苏冠贤;张丽霞;林丕源;刘吉平;;生物信息学推荐系统的设计与实现[J];计算机应用研究;2007年05期
5 王改芬;;推荐系统研究综述[J];软件导刊;2007年23期
6 叶群来;;营销与网络推荐系统[J];电子商务;2007年10期
7 李媚;;个性化网络学习资源推荐系统研究[J];福建电脑;2008年12期
8 潘冉;姜丽红;;基于经济学模型的推荐系统的研究[J];计算机应用与软件;2008年03期
9 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期
10 刘小燕;陈艳丽;贾宗璞;沈记全;;基于增强学习的旅行计划推荐系统[J];计算机工程;2010年21期
相关会议论文 前8条
1 张燕;李燕萍;;基于内容分析和点击率记录的混合音乐推荐系统[A];2009年通信理论与信号处理学术年会论文集[C];2009年
2 赵欣;寇纲;邬文帅;卢艳群;;基于时间密集性的推荐系统攻击检测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
3 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
4 王君;许洁萍;;层次音乐推荐系统的研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
5 潘宇;林鸿飞;杨志豪;;基于用户聚类的电子商务推荐系统[A];第三届学生计算语言学研讨会论文集[C];2006年
6 尤忠彬;陈越;张英;朱扬勇;;基于Web服务的技术转移平台推荐系统研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 王国霞;刘贺平;李擎;;二部图影射及其在推荐系统中的应用[A];第25届中国控制与决策会议论文集[C];2013年
8 王雪;董爱华;吴怡之;;基于RFID技术的智能服装推荐系统设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
相关重要报纸文章 前2条
1 ;大数据如何“落地”[N];中国新闻出版报;2014年
2 本报记者 邹大斌;大数据:电商新武器[N];计算机世界;2012年
相关博士学位论文 前10条
1 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年
2 田刚;融合维基知识的情境感知Web服务发现方法研究[D];武汉大学;2015年
3 胡亮;集成多元信息的推荐系统建模方法的研究[D];上海交通大学;2015年
4 孙丽梅;Web-based推荐系统中若干关键问题研究[D];东北大学;2013年
5 郑麟;基于属性提升与偏好集成的上下文感知推荐[D];武汉大学;2017年
6 于鹏华;数据数量与质量敏感的推荐系统若干问题研究[D];浙江大学;2016年
7 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
8 杨东辉;基于情感相似度的社会化推荐系统研究[D];哈尔滨工业大学;2014年
9 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
10 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 朱孔真;基于云计算的电子商务智能推荐系统研究[D];武汉理工大学;2014年
2 郭敬泽;基于赋权评分和Dpark的分布式推荐系统研究与实现[D];天津理工大学;2015年
3 周俊宇;信息推荐系统的研究与设计[D];江南大学;2015年
4 李炜;基于电子商务平台的保险推荐系统的设计与实现[D];复旦大学;2013年
5 车丰;基于排序主题模型的论文推荐系统[D];大连海事大学;2015年
6 秦大路;基于因式分解机模型的上下文感知推荐系统研究[D];郑州大学;2015年
7 徐霞婷;动态路网监控与导航推荐系统的设计与实现[D];苏州大学;2015年
8 黄学峰;基于Hadoop的电影推荐系统研究与实现[D];南京师范大学;2015年
9 路小瑞;基于Hadoop平台的职位推荐系统的设计与实现[D];上海交通大学;2015年
10 李爱宝;基于组合消费行为分析的团购推荐系统的设计与实现[D];哈尔滨工业大学;2015年
,本文编号:1806920
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1806920.html