基于模型组合算法的用户个性化推荐研究
本文关键词:基于模型组合算法的用户个性化推荐研究
更多相关文章: 用户购物行为 决策树 随机森林 梯度渐进回归树
【摘要】:随着互联网技术的发展,电子商务的迅猛发展,网络购物行为已经越来越普遍,国内外的电子商务公司也从平台时代真正走向数据时代,走向个性化推荐时代。对于B2C这种电子商务形式,平台上的商品品牌数目纷繁复杂。用户每日在网络上的操作行为成指数增长,如何从庞大的数据中为用户进行个性化推荐,如何进行客户关系管理以及购物行为预测受到研究者的重视。 本文主要研究基于模型组合的机器学习方法以预测用户的购买行为。针对基于用户在天猫网站的购物行为数据库,提取用户品牌的相关特征,采用随机森林和iGBDT (initial Gradient Boost Decision Tree)模型组合的机器学习的算法,预测用户在下一个月的购买行为。 论文首先介绍特征的设计过程,利用对购物行为的分析设计出具有广度的特征,优化加工,利用随机森林算法对每个特征进行重要性评估,对特征进行加工,优化和完善。由于特征间相关程度较强,所以采用决策树这种非线性的分类算法。由于决策树存在容易过拟合等缺点,本文采用模型组合的方式,即随机森林和梯度采样(gradient boost)模型结合决策树的方法,可以有效地利用本文提取的特征,得到较好的实验效果。并在此基础上分析两种算法的优劣性能。
【关键词】:用户购物行为 决策树 随机森林 梯度渐进回归树
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-6
- 目录6-10
- 第一章 绪论10-16
- 1.1 基于用户网络购物行为的预测推荐领域的研究背景和意义10-11
- 1.2 推荐预测领域的算法研究11-12
- 1.3 论文研究的主要思路和内容12-16
- 第二章 数据预处理和特征设计16-20
- 2.1 原始数据16
- 2.2 数据预处理16-17
- 2.3 数据特征设计与提取17-18
- 2.4 本章小结18-20
- 第三章 随机森林和梯度渐进回归树算法的研究与介绍20-32
- 3.1 随机森林算法20-24
- 3.1.1 决策树算法20-22
- 3.1.2 算法的随机的特性22-23
- 3.1.3 随机森林算法的生长23-24
- 3.1.4 随机森林算法的分类生长24
- 3.2 梯度迭代决策树算法(Gradient Boosting Decision Tree)24-29
- 3.2.1 梯度渐进回归树(Gradient boosting)介绍25-29
- 3.3 初始化的梯度渐进回归树算法(initialized Gradient Boosting Deci-sion tree)29
- 3.4 本章小结29-32
- 第四章 实验结果与分析32-50
- 4.1 实验工具与平台介绍32
- 4.2 实验过程32-34
- 4.3 实验结果以及训练模型的评估34-36
- 4.4 随机森林的实验结果36-39
- 4.4.1 抽样数据上的实验结果36-39
- 4.4.2 大数据的实验结果39
- 4.5 梯度渐进回归树的实验结果39-45
- 4.5.1 抽样数据的实验结果39-43
- 4.5.2 大数据的实验结果43-45
- 4.6 随机森林和GBRT的实验结果对比与分析45-50
- 第五章 总结与展望50-52
- 5.1 工作总结与创新50
- 5.2 工作展望50-52
- 参考文献52-56
- 致谢56-57
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前8条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 张旺;范丽s,
本文编号:1027901
本文链接:https://www.wllwen.com/guanlilunwen/kehuguanxiguanli/1027901.html