当前位置:主页 > 管理论文 > 营销论文 >

基于随机森林的电影票房预测研究

发布时间:2020-10-12 23:49
   电影营销是提升电影票房的一个不可或缺的因素,积极的营销策略能够提高电影票房收入。电影在创作完成后需要进行完善的营销,尽可能提高票房收入。本文从影响电影票房的营销因素出发,选取档期、首映日票房、百度指数等八个自变量,以2014-2016年173部国产影片的数据为研究对象。采用随机森林方法构建了电影票房回归预测与分类预测模型,并对2017年12部影片的票房进行预测和分析,综合两种方法合理预测票房。同时分析了影响电影票房的营销因素,为院线营销提出了一系列建议。随机森林是常用的分类方法,它可以运用于响应变量是分类、数值和生存变量的情形。随机森林做回归和分类已有了广泛的研究,但当响应变量含有顺序信息时,没有比较完善的针对性解决方案。本文针对电影票房分类预测中响应变量含有顺序信息的情况,探索性地引入基于条件推断树的随机森林模型对电影票房进行分类预测。研究结果分以下几点:1.票房的分类预测结果表明:基于条件推断树随机森林模型的预测精度较传统随机森林模型预测精度高。对2017年12部影片的分类预测结果表明,基于条件推断树随机森林模型在某一类型影片中的预测精度优于传统随机森林模型。2.票房的回归预测结果表明:传统随机森林模型比线性回归模型预测效果好,大部分影片的预测误差在30%以内。3.在采用传统随机森林方法建立票房预测模型的同时,给出了变量重要性的排序,结果表明首映日票房和场均人次两个营销因素对电影票房的影响最大,百度指数和点映票房次之,豆瓣评分和新浪微博影响不大,档期和国产电影保护月的影响可以忽略不计。
【学位单位】:中国石油大学(北京)
【学位级别】:硕士
【学位年份】:2018
【中图分类】:J943;O212.1
【部分图文】:

流程图,构建过程,森林


第 2 章 理论基础随机森林模型机森林是机器学习算法之一,该分类器最早由 Breiman[26]提出,、数据挖掘等相关领域的分类和回归预测中,同时可以对自变序[27]。作为一种非参数的方法,传统随机森林可以解决非线性关关系的问题[28],所以其在基因流行病学中非常受欢迎[29]。相设较多,参数估计数值不稳定的问题,传统随机森林方法在这优势,具有对噪声数据容忍性好、不会过度拟合和良好的解释林是由多个决策树分类器组合而成。其工作原理为:利用 boot始样本中抽取多个样本,对每个 bootstrap 样本建立决策树模型决策树的预测,得出最终的预测结果。随机森林流程图如图 2.

平方和,随机选择,变量,裂点


图 4.1 传统随机森林参数选择Fig. 4.1 Traditional random forest parameter selection 8 个自变量1 2 8X , X , ,X 中随机选择 4 个自变量。每个节点根据式(2.21)和式(2.22)求平方和,选取最优的分裂。本文取 i 1,2, ,173, j 1,2,3,4。对于随机选择的四个变量,分裂点 的选取按照各分类水平依次划分成两个分类水平;若裂点 的选取按照定量变量值从小到大排序,然后令每个值为候不同情况下树分裂所形成节点的平方和,选择平方和最小的值裂直到树的叶子节点中包含的样本量为 5。预测样本tx 的预测为:40011( ) ( )400t i tif x h x

重要性排序,自变量,票房


图 4.2 自变量重要性排序Fig. 4.2 Variable importance order研究中常用的票房预测模型,本节对模型,对 2017 年 12 部影片进行预型,具体模型如下式:0 1 1 2 2 10 10 + X + X ++ X+ ,Y 代表电影票房收入,自变量中电量,1 2 3X , X ,X 分别代表贺岁档、暑期首映日票房;6X 代表点映票房;7X ;9X 代表豆瓣评分;10X 代表国产电影
【相似文献】

相关期刊论文 前10条

1 沈智勇;苏翀;周扬;沈智威;;一种面向非均衡分类的随机森林算法[J];计算机与现代化;2018年12期

2 于大海;李金;罗艳虹;刘近春;张岩波;;随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J];中国卫生统计;2019年02期

3 胡蝶;;基于随机森林的债券违约分析[J];当代经济;2018年03期

4 赵艺淞;杨昆;王保云;黎晓路;;随机森林在城市不透水面提取中的应用研究[J];云南师范大学学报(自然科学版);2017年03期

5 吴辰文;梁靖涵;王伟;李长生;;一种顺序响应的随机森林:变量预测和选择[J];小型微型计算机系统;2017年08期

6 顾娟;林敏;鞠桂玲;;基于随机森林回归的军械器材需求预测[J];自动化应用;2017年09期

7 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期

8 罗超;;面向高维数据的随机森林算法优化探讨[J];商;2016年04期

9 杨晓峰;严建峰;刘晓升;杨璐;;深度随机森林在离网预测中的应用[J];计算机科学;2016年06期

10 张强;;随机森林在居民购房意愿研究中的应用[J];现代经济信息;2016年13期


相关博士学位论文 前10条

1 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年

2 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年

3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年

4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年

5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年

6 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年

7 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

8 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年

9 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年

10 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年


相关硕士学位论文 前10条

1 郭志旺;随机森林和支持向量机在乳腺癌高维转录组数据中的应用[D];河北医科大学;2019年

2 王艺博;潜周期时间序列建模和预测新方法探究[D];上海交通大学;2017年

3 缪琦;基于随机森林和支持向量机的糖尿病风险预测方法研究[D];江苏大学;2019年

4 李勋章;云中心网络流量分类方法研究[D];桂林电子科技大学;2019年

5 汪娟娟;江西省精准扶贫中的贫困户识别研究[D];江西财经大学;2019年

6 潘梦雪;基于随机森林的上市公司舞弊风险识别模型研究[D];杭州电子科技大学;2019年

7 王鸣飞;结直肠癌术前N分期的随机森林预测模型的建立与验证[D];吉林大学;2019年

8 陈云天;南昌市房价时空分布特征及驱动因素分析[D];江西师范大学;2019年

9 马江理;现代服务业发展及评价研究[D];云南大学;2018年

10 董兴军;随机森林在P2P网络借贷借款人信用评估中的应用[D];辽宁大学;2019年



本文编号:2838452

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2838452.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6b695***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com