基于XGBoost算法的电影票房预测
发布时间:2023-11-25 06:54
随着社会发展和大众生活水平的提高,文化娱乐成为人们释放压力的主要途径。电影行业的飞速发展,也使其成为文化娱乐的重要组成部分。遗憾的是,国内成功的电影占比很小,每年拍摄的影片绝大多数很难收回成本,电影票房的预测显得尤为重要。我们选出对电影票房影响较大的因素,建立性能较好的预测模型给电影制作以及宣传提供数据支持。本文利用集成学习来研究电影票房,通过两个数据集验证了基于XGBoost算法的电影票房预测优于随机森林算法和GBDT算法。第一个数据集我们选择Kaggle竞赛中电影票房预测的数据集。数据预处理部分,本文将部分取值不随影片变化的因素量化为具体数值,另外的因素直接量化为哑变量。然后利用XGBoost进行特征选择,给出特征重要性排序,删除冗余属性,降低模型复杂度。通过模型性能评估指标,选出预测精度相对较高的模型。最后利用交叉验证和网格搜索对模型调参,提高模型的预测精度。第二个数据集是选取2019年国内电影票房排名前100中的56部电影的相关数据,建立模型。通过评价指标,得到XGBoost模型更能精确预测电影票房。
【文章页数】:43 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究目的及意义
1.2 研究文献综述
1.2.1 国外文献综述
1.2.2 国内文献综述
1.3 研究方法及结构
1.3.1 研究的方法内容
1.3.2 论文研究结构
1.4 票房预测流程及影响因素分析
第二章 集成学习理论基础
2.1 Bagging与随机森林
2.1.1 决策树
2.1.2 随机森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle数据票房预测
3.1 数据理解与处理
3.1.1 数据理解
3.1.2 数据预处理
3.2 基于XGBoost的变量筛选
3.2.1 特征重要性度量指标
3.2.2 Python实现XGBoost特征选择
3.3 模型优化
第四章 国内票房预测的实证分析
4.1 数据获取与处理
4.1.1 电影自身因素
4.1.2 电影市场和网络因素
4.2 国产电影票房预测及结果分析
第五章 总结
5.1 全文总结
5.2 研究展望
参考文献
致谢
本文编号:3867489
【文章页数】:43 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究目的及意义
1.2 研究文献综述
1.2.1 国外文献综述
1.2.2 国内文献综述
1.3 研究方法及结构
1.3.1 研究的方法内容
1.3.2 论文研究结构
1.4 票房预测流程及影响因素分析
第二章 集成学习理论基础
2.1 Bagging与随机森林
2.1.1 决策树
2.1.2 随机森林
2.2 Boosting
2.2.1 AdaBoost算法
2.2.2 GB算法
2.2.3 GBDT算法
2.2.4 XGBoost算法
第三章 基于kaggle数据票房预测
3.1 数据理解与处理
3.1.1 数据理解
3.1.2 数据预处理
3.2 基于XGBoost的变量筛选
3.2.1 特征重要性度量指标
3.2.2 Python实现XGBoost特征选择
3.3 模型优化
第四章 国内票房预测的实证分析
4.1 数据获取与处理
4.1.1 电影自身因素
4.1.2 电影市场和网络因素
4.2 国产电影票房预测及结果分析
第五章 总结
5.1 全文总结
5.2 研究展望
参考文献
致谢
本文编号:3867489
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3867489.html