高效率用户群体兴趣趋势发现的推荐方法研究

发布时间:2017-12-31 11:26

  本文关键词:高效率用户群体兴趣趋势发现的推荐方法研究 出处:《山东大学》2016年博士论文 论文类型:学位论文


  更多相关文章: 推荐系统 活跃度 信任度 隐私分享 高效率用户群体


【摘要】:随着互联网及电子商务技术的迅速发展,用户获得的信息呈爆炸式的增长。电子商务在给用户带来丰富产品和快捷方便的同时,也带来了诸如数据海量、品种多样、真假难辨等问题的困扰,形成了所谓的“信息过载”,推荐系统就是为应对这一问题而产生的。与搜索引擎和门户网站不同,推荐系统可以通过分析用户与其他用户的关联和历史消费等数据,预测用户尚未购买而符合用户需求的商品,促进用户从观望向购买的转化,有效提升用户对电子商务网站的信赖并提高商品的销量。然而,用户数量和企业规模的不断增长导致把握每个用户的兴趣趋势十分困难,主要体现在三个方面。首先,多用户群体中能够积极参与系统交互的人数比较少,推荐方法难以将反映多用户真实需求的数据准确地提取出来;其次,用户对其他用户和推荐系统的信任度比较低,不利于提取用户的有价值数据,妨碍对用户个性化需求的了解和提升用户对系统的满意度;第三,推荐系统通过获取用户的个人数据来进行更加准确的推荐,这就产生了用户对个人隐私的担忧,导致用户的分享行为变得保守,使推荐系统中隐私收集策略无法充分考虑所有用户的信息分享偏好。这些问题的存在都不利于推荐系统充分了解用户的个性化需求,降低了推荐系统的准确率和用户的满意度。本文以上述三个方面为研究目标,从高活跃度、高信任度、高隐私分享量共三类高效率用户群体中预测和挖掘出用户的兴趣趋势,进而做出更准确的个性化推荐,使用户对电子商务中的推荐系统具有较高的信赖度和满意度。本文的主要贡献如下:(1)提出一种新的推荐算法Div-clustering,实现了电子商务中用户实体的数据建模,在此基础上利用改进的k-means聚类算法完成了高活跃度用户的识别,以识别的高活跃度用户群体的数据优化了推荐项目,使推荐系统的推荐准确率更高。Div-clustering通过分析实体数据结构,建立了多用户群体的图模型,研究了高活跃度的用户群体和推荐项目的特征。实验中的论文数据主要从Elsevier和IEEE等学术网站通过网络爬虫Websphinx爬取,电影数据来自于两个著名电影网站MovieLens和IMDB。实验结果表明Div-clustering推荐算法在学术论文和电影的推荐中体现出更高的准确率,与传统基于普通用户的推荐算法相比,Div-clustering在实时评估和线下分析中表现出更好的稳定性,也说明来源于高活跃度用户群体数据产生的推荐比普通用户群体数据产生的推荐,更容易被其它用户接受和信任。(2)针对推荐系统中信任关联的稀疏性问题,以高活跃度用户群体更容易被信任为出发点,提出挖掘用户间隐性信任关联的推荐算法PointBurst,所挖掘的隐性信任关联为用户间已知的显性信任关联提供了有力的补充,缓解了协同过滤等传统算法在电子商务环境中面临的信任关联稀疏性问题。PointBurst算法在多用户图模型的基础上着重分析用户间的信任关联特征和关联强度,优化了同类型实体之间的分类和不同类型实体之间的关联标记,从已经识别为高活跃度用户群体中,进一步挖掘高信任度的用户群体和隐性的信任关联,最终利用已知的显性信任关联和挖掘的隐性信任关联共同作为推荐系统的输入而生成推荐项目。通过在del.icio.us, Myspace和MovieLens等数据集中分别运行PointBurst算法和传统推荐算法进行比较,结果表明PointBurst算法产生的推荐项目更加准确和稳定。(3)在用户的隐私分享量与信任关联强度成正比的发现基础上,提出一种基于用户隐私分享因素的学习模型ISBP,探索用户在信任关联中分享个人隐私的潜在因素,识别出高隐私分享量的用户群体,使推荐系统可以通过收集该用户群体的数据而增加推荐的准确率。ISBP在近期有关隐私分享的研究中归纳了影响用户在各类电子商务场景中的潜在因素,制定了因素假设,改进了决策树分类器、K近邻分类器和朴素贝叶斯分类器,使其能够检测出影响用户在信任关联中隐私分享量的潜在因素。将ISBP学习模型运行在从多组实时数据平台SOJUMP收集的数据集中后发现,隐私分享量最高的用户特征是年轻、非计算机类的群体,而与性别无关。在不引起所有用户隐私担忧的前提下,该类高隐私分享量的用户群体可以分享比其它用户群体更多的个人隐私信息,有利于推荐系统更好地了解用户需求并产生更准确的推荐。(4)发现了导致高隐私分享量用户群体流失的溢出现象,并提出了缓解溢出现象的决策支持机制DSS。所谓溢出现象是指,高隐私分享量的用户群体在受到不良的隐私收集顺序影响时,降低了后续的隐私分享量,使推荐系统不能够持续地获得用户的准确信息,引起了推荐准确率的下降。在分析多个数据集后发现,溢出现象是广泛存在的,主要体现在向用户收集高敏感度的隐私项目会使其后续的隐私分享量下降,而高隐私分享量用户受到的负面影响最大。本文对k-means聚类算法进行改进,使其可以检测出用户改变隐私分享量时对应的心理认知因素的改变,证实了用户的认知能力会引起溢出现象的产生,根本原因在于没有足够的储备知识来支持自己的隐私分享决策。本文提出了为用户提供隐私分享的决策支持机制,帮助用户理解推荐的机理和增加用户的储备知识。实验证明了决策支持机制可以将溢出现象的负面效果降低,保持高隐私分享量的用户群体继续为推荐系统提供充足的用户信息,维持较高的推荐准确率
[Abstract]:With the rapid development of Internet and e - commerce technology , the information obtained by users is exploding .

【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.3


本文编号:1359573

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1359573.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ef53***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com