推荐系统及众包模式中的若干问题研究
发布时间:2018-04-16 23:28
本文选题:信息过载 + 推荐系统 ; 参考:《北京邮电大学》2017年博士论文
【摘要】:近年来,随着计算机网络、移动互联网的广泛普及与发展,全球每年产生的数据量爆炸式增长,海量数据蕴藏着巨大的价值。然而在数据量爆炸式增长的另一面,隐藏着数据价值密度越来越低的问题。海量数据信息在给人们生活带来便利的同时,也将人们从信息匮乏的时代带进了信息过载的时代。高效的数据挖掘,是应对信息过载难题的关键。通常,互联网用户获取信息可以通过被动和主动两种途径,这也是互联网信息供给的两种途径。一种情况是用户被动的接收互联网或统一发布或个性化推送的信息;另一种情况是,用户主动使用互联网获取信息。为解决信息过载难题,本文从上述两个角度,选取了两种典型互联网信息供给方法展开研究:推荐系统和众包模式。本文主要工作和创新如下:1.针对推荐系统中的直接类型用户反馈数据—评分信息,本文提出了一种上下文信息参与建模的概率张量分解推荐算法,破解信息过载表现出的信息供求不匹配问题。目前,在个性化推荐系统中,上下文信息正在受到越来越多的重视。然而,目前大多数基于二维矩阵分解的推荐算法,不能将上下文信息与评分信息、社交网络信息和物品内容等信息同时进行建模,忽略了其中某些因素间的相互影响。本文将上述数据信息看成一个用户-物品-上下文的评分张量,将概率矩阵分解推广至概率张量分解。之后,本文进一步将概率张量分解模型扩展为上下文信息参与建模的概率张量分解算法,该算法系统的将上下文信息、社交网络信息、文本内容信息和评分信息进行融合,从而达到提高推荐系统性能的目的。在两个数据集上的实验结果,证明了方法的有效性和鲁棒性。2.针对推荐系统中的间接类型用户反馈数据—签到频率信息,本文提出了两种兴趣点推荐的时空话题模型,破解如何利用用户间接反馈信息解决信息供求不匹配的难题。常见的评分类推荐系统,评分数值大小直接表明了用户对物品的喜好程度。而在用户地点签到问题中,用户对于某个地点的偏好程度,是通过访问次数的不断累加间接体现的,因此,签到频率属于间接反馈类型的数据,数据的取值范围相比于评分信息,不固定且开放。通常,签到数据包括用户唯一标识ID、文本评论、签到时间以及地理位置等信息。为了能够综合使用上述信息为用户推荐兴趣点,首先,本文使用LDA模型分析了兴趣点和用户相关文本文档的主题分布情况,以评价兴趣点对用户的主题吸引程度,使用地理位置信息衡量用户就近访问的概率,并以指数形式对主题吸引度和地理吸引度对用户移动行为的影响进行建模;其次,本文使用时间信息将原始的用户签到数据进行分类,这样,同一类别下的用户签到数据都发生在相似时间场景下,更易从中发现规律;在上述基础上,以概率矩阵分解为框架,通过为隐特征矩阵分别假设高斯先验分布和伽马先验分布,本文提出了两种兴趣点推荐的时空话题模型,目的在于探索先验分布假设对于推荐性能的影响。相关实验证明了本文兴趣点推荐模型的有效性。3.针对众包模式获取信息质量无保证的问题,本文提出了一种开放型众包任务的答案整合方案,解决信息过载表现出的信息质量无保证问题。由于参与众包任务的工人可靠程度不同,众包平台会对收集到的答案进行答案整合以确保众包服务质量。目前,由于开放式任务类型多样,且没有备选答案,答案空间开放,开放式任务的答案整合仍处于探索研究阶段。本文认为工人答案的可信程度由任务和工人两方面因素共同决定。任务本身的困难度很大程度上决定了自身答案空间的情况(答案类别,各类答案占比),本文使用中国式餐馆过程对任务收集答案的过程进行建模,并用中国式餐馆过程的集中度参数衡量任务本身的困难度。综合考虑任务困难度,工人的可靠度和工人给出的答案,本文提出了一种答案整合方案,并设计了 EM算法同时估算工人的可靠度和任务的最佳答案。由于EM算法比较耗时,本文使用熵概念来评估任务答案空间的混乱度是否趋于稳定,当任务空间熵稳定时,再调用EM算法,这样既可以节约频繁调用EM算法的时间,也可以节约有偿任务征集答案的成本。真实数据集上的实验结果表明,本文提出方案能够在征集较少答案的情况下,实现较好的答案整合效果。
[Abstract]:In recent years , with the widespread popularization and development of computer networks and mobile Internet , the data volume generated annually in the world is exploding , and the mass data is of great value . This paper proposes an answer integration scheme of open - type crowdsourcing task .
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前4条
1 方兴东;;G20互联网研究发展报告——综合篇[J];汕头大学学报(人文社会科学版);2016年06期
2 冯剑红;李国良;冯建华;;众包技术研究综述[J];计算机学报;2015年09期
3 张志强;逄居升;谢晓芹;周永;;众包质量控制策略及评估算法研究[J];计算机学报;2013年08期
4 邓爱林,朱扬勇,施伯乐;基于项目评分预测的协同过滤推荐算法[J];软件学报;2003年09期
相关博士学位论文 前1条
1 胡昭阳;众包科学:网络传播语境下的公众参与创新[D];中国科学技术大学;2015年
,本文编号:1761069
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1761069.html