推荐系统中随机森林算法的优化与应用
本文关键词:推荐系统中随机森林算法的优化与应用,由笔耕文化传播整理发布。
【摘要】:如今,推荐系统已成为一种热门的与计算机学科和数据挖掘联系紧密的技术,在现代互联网行业中有着重要的地位。随机森林算法比其他线性分类器具有很多优势,不仅在结果预测的准确度上有所提高,一般误差也更小,并且对高维数据的处理也更高效,训练过程快速而且可以并行化实现。这使得随机森林相关的优化问题十分具有研究价值。然而,现阶段使用的随机森林在进行特征选择时属于纯随机,在保证弱化数据关联度时的同时会导致模型强度的下降。此外,对于数据的类别分布不平衡的情况,即存在某一个或一些类别的数据量远远小于其他类别,使用随机森林模型进行预测的准确率会下降,并且一般误差会增大。本文主要针对特征选择和不平衡分类两个问题,利用推荐系统竞赛提供的数据,对随机森林模型的优化问题进行研究。以随机森林RC形态为基础,利用卡方计算特征之间的相关性,对特征进行排序,将特征分为两个区间,分别进行抽样,使用特征的线性组合,完成特征选择。针对类不平衡问题的研究,结合了随机森林的平衡和加权两种算法,设计了平衡加权随机森林,针对重采样和代价敏感学习本身的弊端进行了改进。并且对特征选择的改进和类不平衡问题的改进算法分别进行了实验,利用F1值对实验结果进行了对比和评估,阐明了对随机森林特征选择和不平衡分类问题的改善成果。
【关键词】:推荐系统 随机森林 特征选择 不平衡数据分类
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- Abstract4-11
- 缩写、符号清单、术语表11-12
- 第1章 绪论12-19
- 1.1 课题背景12-13
- 1.2 研究现状13-16
- 1.2.1 推荐系统与随机森林13-14
- 1.2.2 特征选择14-15
- 1.2.3 不平衡分类15-16
- 1.2.4 总结分析16
- 1.3 本文的主要工作16-18
- 1.4 论文的组织架构18-19
- 第2章 基础研究与系统设计19-26
- 2.1 推荐系统中分类算法的应用19-22
- 2.1.1 决策树19-20
- 2.1.2 集成方法与随机森林20-22
- 2.2 问题描述与系统设计22-23
- 2.2.1 数据描述22
- 2.2.2 总体设计22-23
- 2.3 系统评价指标23-25
- 2.4 本章小结25-26
- 第3章 数据统计与特征提取26-41
- 3.1 数据统计与可视化26-31
- 3.2 特征提取31-34
- 3.2.1 会话特征31
- 3.2.2 商品特征31-32
- 3.2.3 时间特征32
- 3.2.4 会话-商品特征32-33
- 3.2.5 总结33-34
- 3.3 数据处理34-40
- 3.3.1 缺失值填充35-36
- 3.3.2 异常值处理36-37
- 3.3.3 数据标准化37-38
- 3.3.4 离散化处理38-40
- 3.4 本章小结40-41
- 第4章 随机森林模型的改进与应用41-58
- 4.1 针对随机森林的特征选择改进41-50
- 4.1.1 随机森林的基础形态41-44
- 4.1.2 改进思想44-48
- 4.1.3 改进方法48-50
- 4.2 类不平衡问题与模型改进50-57
- 4.2.1 平衡随机森林50-52
- 4.2.2 加权随机森林52-53
- 4.2.3 改进思想53-55
- 4.2.4 改进方法55-57
- 4.3 本章小结57-58
- 第5章 实验结果与分析58-72
- 5.1 基于会话、会话-商品的随机森林模型58-67
- 5.1.1 模型构建58-61
- 5.1.2 基于会话的实验61-66
- 5.1.3 基于会话-商品的实验66
- 5.1.4 结果分析66-67
- 5.2 随机森林特征选择的改进实验67-69
- 5.2.1 实验结果67-68
- 5.2.2 结果分析68-69
- 5.3 不平衡分类问题改进实验69-70
- 5.3.1 实验结果69-70
- 5.3.2 结果分析70
- 5.4 本章小结70-72
- 第6章 总结与展望72-74
- 6.1 总结72-73
- 6.2 展望73-74
- 参考文献74-78
- 致谢78
【相似文献】
中国期刊全文数据库 前10条
1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
本文关键词:推荐系统中随机森林算法的优化与应用,由笔耕文化传播整理发布。
,本文编号:445720
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/445720.html