基于统计学的个性化推荐算法探究
本文关键词:基于统计学的个性化推荐算法探究
更多相关文章: 统计学 大数据 协同过滤 奇异值分析 聚类 个性化推荐
【摘要】:随着互联网的高速发展,信息呈爆炸式地增长,大数据在飞速的发展中,数据挖掘是一个充满活力的研究领域,商业利益的强大驱动力将会不断地促进它的发展,个性化推荐就属于大数据时代数据挖掘应用在互联网方面的重要技术。面对海量数据,推荐系统的产生能实现信息消费者和生产者的双赢。协同过滤算法是个性化推荐中最成功和应用最广泛的算法之一,但它依赖于用户的历史评分数据,所以存在冷启动,数据的稀疏性等问题。 大数据新形势下,包括个性化推荐在内的各种数据挖掘算法给统计学带来了机遇和挑战,一方面,数据挖掘的各种算法很多思想都来自于统计学;另一方面,数据挖掘面对统计学表现出了强大的生机。据此,本文探究在数据量比较大的情况下,将统计分析应用到个性化推荐算法中的效果,同时也应用数据挖掘的其他模型,如关联法则,聚类等方法改进模型。 本文提出了基于统计学的个性化推荐,主要是利用MATLAB, SAS进行辅助编程,分别实现了描述性统计、多维关联法则、协同过滤的算法进行推荐。对协同过滤模型存在的缺点的改进,针对模型的数据稀缺性和冷启动问题,结合用户的评分和特征信息,提出用一维和二维的统计量改进数据的稀疏度问题,然后利用SQL SERVER2005和EXCEL数据挖掘外接模块对用户建立聚类模型,基于各类的统计分析改进模型,聚类模型不仅能解决数据的稀缺性,而且能克服冷启动问题;最后通过奇异值分解方法改进算法,并由平均绝对误差来衡量各种改进效果。通过对比本文得出结论:根据用户的评分和特征进行统计分析,用分析结果改进协同过滤算法有比较好的效果,结合统计学,数据挖掘的模型对于冷启动问题有较大的改善。本文的实验可以说明统计学的思想在各种复杂的模型中都能得到体现,在未来大数据发展的路上,统计学既要保持其最基础的生命力,同时要加强在其他学科的应用,推进统计方法制度改革,扩展统计学研究具体科学的深度和广度。
【关键词】:统计学 大数据 协同过滤 奇异值分析 聚类 个性化推荐
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:C81
【目录】:
- 摘要4-5
- Abstract5-11
- 第一章 绪论11-18
- 1.1 课题的背景和意义11-13
- 1.2 文献综述13-15
- 1.3 论文研究内容及结构15-18
- 第二章 理论技术18-39
- 2.1 个性化推荐与统计学18-19
- 2.2 个性化推荐技术19-25
- 2.3 关联规则25-28
- 2.4 协同过滤28-39
- 第三章 基于统计分析的推荐39-49
- 3.1 数据说明39-40
- 3.2 数据准备40-41
- 3.3 一元描述性统计推荐41-44
- 3.4 二元描述性统计推荐44-49
- 第四章 基于规则的推荐49-53
- 4.1 数据整理49
- 4.2 模型过程49-51
- 4.3 结果分析51-53
- 第五章 协同过滤算法实现53-56
- 5.1 数据处理53-54
- 5.2 算法过程54-55
- 5.3 结果分析55-56
- 第六章 基于统计视角的协同过滤改进56-67
- 6.1 一维角度改进数据稀疏问题56-57
- 6.2 二维角度改进数据稀疏问题57-59
- 6.3 基于用户聚类的协同过滤59-61
- 6.4 SVD解决数据稀疏问题61-63
- 6.5 各种方法下的评价绝对偏差对比63-67
- 第七章 结论及展望67-69
- 7.1 研究结论总结67-68
- 7.2 未来研究的展望68-69
- 参考文献69-71
- 附录 MATLAB代码71-74
- 致谢74
【参考文献】
中国期刊全文数据库 前10条
1 李扬;谢邦昌;彭茜茜;;统计学习的过去、现在和将来[J];数据;2009年07期
2 廖新考;;基于用户特征和项目属性的混合协同过滤推荐[J];福建电脑;2010年07期
3 王政霞,黄大荣;基于统计方法的数据挖掘算法研究[J];湖北民族学院学报(自然科学版);2005年01期
4 王怀亮;;交叉验证在数据建模模型选择中的应用[J];商业经济;2011年10期
5 徐翔;王煦法;;基于SVD的协同过滤算法的欺诈攻击行为分析[J];计算机工程与应用;2009年20期
6 张海燕,丁峰,姜丽红;基于模糊聚类的协同过滤推荐方法[J];计算机仿真;2005年08期
7 陈华;李仁发;刘钰峰;练琪;;个性化搜索引擎推荐算法研究[J];计算机应用研究;2010年01期
8 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
9 许海玲;吴潇;李晓东;阎保平;;互联网推荐系统比较研究[J];软件学报;2009年02期
10 朱世武 ,崔嵬 ,张尧庭 ,谢邦昌;数据挖掘运用的理论与技术[J];统计研究;2003年08期
中国博士学位论文全文数据库 前4条
1 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
2 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
3 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
4 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
,本文编号:1083550
本文链接:https://www.wllwen.com/shekelunwen/shgj/1083550.html