考虑竞争的电影首映日票房集成预测模型研究
发布时间:2021-07-05 23:07
电影首映日票房预测对该日排片、后续放映日票房及总票房有显著影响。本文在构建考虑竞争的电影首映日票房预测变量集的基础上,建立首映日票房集成预测模型。首先使用多元线性回归(multiple linear regression, MLR)、支持向量回归(support vector regression, SVR)、套索回归(Least absolute shrinkage and selection operator, Lasso)和极端梯度提升(Extreme Gradient Boosting, XGBoost)等算法建立基学习器,随后使用XGBoost算法作为原学习器构建堆栈集成预测模型,最后利用收集到的数据进行对比实验。实验证明,加入竞争变量的电影首映日票房预测变量集适用于首映日票房预测;相比单一模型,该集成预测模型的准确性、泛化性能和稳定性均有提升,相比较传统预测方法对首映日票房预测更准确。提出的集成预测模型有助于提升首映日票房排片的有效性。
【文章来源】:科技促进发展. 2020,16(10)CSCD
【文章页数】:9 页
【部分图文】:
模型构建流程
a.竞争环境。电影票房不仅与该电影口碑相关,还与同档期内该电影与最高口碑电影的口碑差距有关,差距越大,电影票房越低,并且档期热度和该档期内上映电影数对这种负向作用具有调节效应[21]。本文对竞争环境的量化主要考虑两个方面。(1)高票房竞争对手。由于市场总量在短时期内基本固定,所以对高票房竞争对手的考量是有必要的。综合考虑口碑效应及可获得数据,本文选取预测电影上映前一周首要竞争对手的票房数据及前三名竞争对手的座位数等数据,来度量高票房竞争对手;(2)同类型电影的竞争对手。考虑到不同类型的电影可能面向不同的目标观众,本文选取同档期内的同类型电影上映数量、上映时长等作为竞争环境变量。b.观众期待。社交网络数据被广泛运用于需求预测。相较于预告片评论量等社交网络数据,预告片在社交网络的分享数对票房具有更显著影响[22]。本文使用社交网站如微博和优酷视频网站的用户对目标电影预告片的转发与评论数,以及百度搜索指数和豆瓣“想看”的人数等变量来量化观众对电影的期待程度。
多元线性回归是研究不确定性关系的有效统计方法,也是近二十年来票房预测中应用最早与最广的方法之一[24];Lasso是一种回归分析方法,可同时实现变量选择和正则化,广泛应用于统计学和机器学习领域。Lasso回归能够保持对高维变量的计算可行性,并且容易产生可解释的稀疏解,是电影票房预测的一种常用方法[25];SVR是支持向量机在回归问题上的应用,方法较为成熟,可将SVR算法用于电影票房预测研究;XGBoost算法属于集成方法中的同源集成,是Boosting方法的一种,同时也是一种灵活可扩展的梯度提升方法。具有结果可解释性强,对缺失值不敏感,支持列抽样等优点,在预测研究中具有良好的适用性[26]。基于上述原因,本文拟选取MLR、Lasso回归、SVR和XGBoost算法作为基学习器。基于堆栈泛化的集成模型的训练步骤如图2所示。
【参考文献】:
期刊论文
[1]电影类型片票房竞合关系:以2015年中国市场为例[J]. 张伦,李晗,周雯. 全球传媒学刊. 2017(01)
[2]电影首映日后票房预测模型研究[J]. 罗晓芃,齐佳音,田春华. 统计与信息论坛. 2016(11)
[3]从动态竞争理论的视角看电影口碑对票房的影响[J]. 贺凯彬,王锐,张涵. 营销科学学报. 2016(03)
[4]基于微博情感分析的电影票房预测研究[J]. 史伟,王洪伟,何绍义. 华中师范大学学报(自然科学版). 2015(01)
硕士论文
[1]电影票房预测研究发展史简论[D]. 王雪娟.重庆大学 2015
本文编号:3267006
【文章来源】:科技促进发展. 2020,16(10)CSCD
【文章页数】:9 页
【部分图文】:
模型构建流程
a.竞争环境。电影票房不仅与该电影口碑相关,还与同档期内该电影与最高口碑电影的口碑差距有关,差距越大,电影票房越低,并且档期热度和该档期内上映电影数对这种负向作用具有调节效应[21]。本文对竞争环境的量化主要考虑两个方面。(1)高票房竞争对手。由于市场总量在短时期内基本固定,所以对高票房竞争对手的考量是有必要的。综合考虑口碑效应及可获得数据,本文选取预测电影上映前一周首要竞争对手的票房数据及前三名竞争对手的座位数等数据,来度量高票房竞争对手;(2)同类型电影的竞争对手。考虑到不同类型的电影可能面向不同的目标观众,本文选取同档期内的同类型电影上映数量、上映时长等作为竞争环境变量。b.观众期待。社交网络数据被广泛运用于需求预测。相较于预告片评论量等社交网络数据,预告片在社交网络的分享数对票房具有更显著影响[22]。本文使用社交网站如微博和优酷视频网站的用户对目标电影预告片的转发与评论数,以及百度搜索指数和豆瓣“想看”的人数等变量来量化观众对电影的期待程度。
多元线性回归是研究不确定性关系的有效统计方法,也是近二十年来票房预测中应用最早与最广的方法之一[24];Lasso是一种回归分析方法,可同时实现变量选择和正则化,广泛应用于统计学和机器学习领域。Lasso回归能够保持对高维变量的计算可行性,并且容易产生可解释的稀疏解,是电影票房预测的一种常用方法[25];SVR是支持向量机在回归问题上的应用,方法较为成熟,可将SVR算法用于电影票房预测研究;XGBoost算法属于集成方法中的同源集成,是Boosting方法的一种,同时也是一种灵活可扩展的梯度提升方法。具有结果可解释性强,对缺失值不敏感,支持列抽样等优点,在预测研究中具有良好的适用性[26]。基于上述原因,本文拟选取MLR、Lasso回归、SVR和XGBoost算法作为基学习器。基于堆栈泛化的集成模型的训练步骤如图2所示。
【参考文献】:
期刊论文
[1]电影类型片票房竞合关系:以2015年中国市场为例[J]. 张伦,李晗,周雯. 全球传媒学刊. 2017(01)
[2]电影首映日后票房预测模型研究[J]. 罗晓芃,齐佳音,田春华. 统计与信息论坛. 2016(11)
[3]从动态竞争理论的视角看电影口碑对票房的影响[J]. 贺凯彬,王锐,张涵. 营销科学学报. 2016(03)
[4]基于微博情感分析的电影票房预测研究[J]. 史伟,王洪伟,何绍义. 华中师范大学学报(自然科学版). 2015(01)
硕士论文
[1]电影票房预测研究发展史简论[D]. 王雪娟.重庆大学 2015
本文编号:3267006
本文链接:https://www.wllwen.com/jingjilunwen/whjj/3267006.html