当前位置:主页 > 文艺论文 > 影视论文 >

基于网络数据的电影票房预测模型研究

发布时间:2021-01-20 02:58
  电影作为人们日常生活中的主要娱乐方式之一,从产品本身来看满足了观众的精神需求,从社会层面看则推动着文化经济的快速前进。2018年中国电影票房整体突破600亿大关。在电影文化的高速发展下,以美国为代表的电影业在经营方式、营销手段上日趋成熟。国产电影在经过引进、消化、再创新之后,也进入就新的发展时期。然而,随着经济文化的不断发展,观众群体对于电影的要求越来越高,这也直接导致电影市场的竞争日趋严重。在市场和观众的共同作用下,电影产业难以避免地存在一些高投资低票房的亏损现象。因此,采用预测的手段,提前在一部影片的设计、制作和运营初期将综合因素进行量化,然后分析其期望的票房表现,从而动态调整电影的运作流程,降低投资风险,引导电影的积极发展,对于电影投资商和社会经济都是十分有益的事情。大数据、预测模型、机器学习等的发展,为票房预测提供了数据和分析理论支持。本文中,首先通过爬虫技术爬取时光网、猫眼专业版和中国票房数据库等专业的电影信息统计网站相应数据,然后选定2015年1月2018年12月票房收入超过1亿的影片作为研究的基本数据,数据指标为影片部分可获取基本信息,如导演、演员、... 

【文章来源】:天津商业大学天津市

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

基于网络数据的电影票房预测模型研究


近8年全国净票房量及同比增幅Fig1-1Nationalnetboxofficevolumeandyear-on-yeargrowthinthepast8years

研究思路


图 1-2 研究思路Fig 1-2 Research ideas1.5.2 研究方法(1)文献调查法:本文通过对电影票房预测模型等相关文献进行了收集和查阅,总结出适应电影票房收入预测的常用算法及常用的票房预测模型相关指标,确定了本文将采取的研究算法及相关指标的选取,并确定了论文整体思路及突破点。(2)统计学研究法:本文将通过 R 语言及 Python 软件对中国电影票房数据库等网站爬取得到的数据进行统计分析,首先建立起统计学方法分析中各个变量间的联系,并对关键指标进行可视化分析,然后运用统计学及机器学习相关理论构建模型、分析模型结果、获得最终结论。(3)对比实验法最后通过对比实验法将爬取获得的影片信息作为评价预测模型分析结果的重要

森林,模型建立


图 2-1 随机森林模型建立图Fig 2-1 Establishment of a random forest model2.2.4 袋外错误率(oob error)上述随机森林算法内,决策树的训练数据由 bootstrap 方式得到,该方式令训练数据集中每个样本没有被抽到的概率为(1 1 ) ,其中 N 为总训练样本的数量,当 N足够大时,其概率值趋近于 0.368[18]。因此,经历了多次重复采样之后,未被抽到的样本占总训练样本的 37%,该部分数据即为上述的袋外数据(Out-of-Bag,OOB)。为提高估计森林以及决策树的分类精度,同时避免增加测试样本数量,可以选择袋外数据估计法实现这一目标,该法能够实现对随机树生成过程内误差项的无偏估计。袋外错误率的计算方式为:先计算出每个样本作为 OOB 样本的树时所定义的分类状况(约为树的 1/3);然后以简单投票方式作为该样本的分类结果,票数多的即为该样本的类别;定义最终错误分类样本数与总样本数的比值为袋外错误率,该指标意味着随机森林泛化误差的无偏估计值,效果与计算量较大的 k 折交叉检验相近。2.2.5 随机森林的优点


本文编号:2988227

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/dianyingdianshilunwen/2988227.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82e33***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com