基于随机森林的电影票房预测研究
【学位单位】:中国石油大学(北京)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:J943;O212.1
【部分图文】:
第 2 章 理论基础随机森林模型机森林是机器学习算法之一,该分类器最早由 Breiman[26]提出,、数据挖掘等相关领域的分类和回归预测中,同时可以对自变序[27]。作为一种非参数的方法,传统随机森林可以解决非线性关关系的问题[28],所以其在基因流行病学中非常受欢迎[29]。相设较多,参数估计数值不稳定的问题,传统随机森林方法在这优势,具有对噪声数据容忍性好、不会过度拟合和良好的解释林是由多个决策树分类器组合而成。其工作原理为:利用 boot始样本中抽取多个样本,对每个 bootstrap 样本建立决策树模型决策树的预测,得出最终的预测结果。随机森林流程图如图 2.
图 4.1 传统随机森林参数选择Fig. 4.1 Traditional random forest parameter selection 8 个自变量1 2 8X , X , ,X 中随机选择 4 个自变量。每个节点根据式(2.21)和式(2.22)求平方和,选取最优的分裂。本文取 i 1,2, ,173, j 1,2,3,4。对于随机选择的四个变量,分裂点 的选取按照各分类水平依次划分成两个分类水平;若裂点 的选取按照定量变量值从小到大排序,然后令每个值为候不同情况下树分裂所形成节点的平方和,选择平方和最小的值裂直到树的叶子节点中包含的样本量为 5。预测样本tx 的预测为:40011( ) ( )400t i tif x h x
图 4.2 自变量重要性排序Fig. 4.2 Variable importance order研究中常用的票房预测模型,本节对模型,对 2017 年 12 部影片进行预型,具体模型如下式:0 1 1 2 2 10 10 + X + X ++ X+ ,Y 代表电影票房收入,自变量中电量,1 2 3X , X ,X 分别代表贺岁档、暑期首映日票房;6X 代表点映票房;7X ;9X 代表豆瓣评分;10X 代表国产电影
【相似文献】
相关期刊论文 前10条
1 沈智勇;苏翀;周扬;沈智威;;一种面向非均衡分类的随机森林算法[J];计算机与现代化;2018年12期
2 于大海;李金;罗艳虹;刘近春;张岩波;;随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J];中国卫生统计;2019年02期
3 胡蝶;;基于随机森林的债券违约分析[J];当代经济;2018年03期
4 赵艺淞;杨昆;王保云;黎晓路;;随机森林在城市不透水面提取中的应用研究[J];云南师范大学学报(自然科学版);2017年03期
5 吴辰文;梁靖涵;王伟;李长生;;一种顺序响应的随机森林:变量预测和选择[J];小型微型计算机系统;2017年08期
6 顾娟;林敏;鞠桂玲;;基于随机森林回归的军械器材需求预测[J];自动化应用;2017年09期
7 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期
8 罗超;;面向高维数据的随机森林算法优化探讨[J];商;2016年04期
9 杨晓峰;严建峰;刘晓升;杨璐;;深度随机森林在离网预测中的应用[J];计算机科学;2016年06期
10 张强;;随机森林在居民购房意愿研究中的应用[J];现代经济信息;2016年13期
相关博士学位论文 前10条
1 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年
2 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年
3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年
5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年
6 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年
7 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
8 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年
9 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年
10 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
相关硕士学位论文 前10条
1 郭志旺;随机森林和支持向量机在乳腺癌高维转录组数据中的应用[D];河北医科大学;2019年
2 王艺博;潜周期时间序列建模和预测新方法探究[D];上海交通大学;2017年
3 缪琦;基于随机森林和支持向量机的糖尿病风险预测方法研究[D];江苏大学;2019年
4 李勋章;云中心网络流量分类方法研究[D];桂林电子科技大学;2019年
5 汪娟娟;江西省精准扶贫中的贫困户识别研究[D];江西财经大学;2019年
6 潘梦雪;基于随机森林的上市公司舞弊风险识别模型研究[D];杭州电子科技大学;2019年
7 王鸣飞;结直肠癌术前N分期的随机森林预测模型的建立与验证[D];吉林大学;2019年
8 陈云天;南昌市房价时空分布特征及驱动因素分析[D];江西师范大学;2019年
9 马江理;现代服务业发展及评价研究[D];云南大学;2018年
10 董兴军;随机森林在P2P网络借贷借款人信用评估中的应用[D];辽宁大学;2019年
本文编号:2838452
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2838452.html