当前位置:主页 > 文艺论文 > 影视论文 >

基于消费意图和情感分析的票房预测建模

发布时间:2017-06-11 11:09

  本文关键词:基于消费意图和情感分析的票房预测建模,由笔耕文化传播整理发布。


【摘要】:微博作为一种新兴的社交媒体,已经积累了大量的用户和影响力。微博不断增加的在线评论正在极大影响着传统的市场决策,使得文本挖掘成为商业界和学术界共同的热点话题。用户的每一条评论所汇聚成的集体智慧,不仅含有对某种商品的购买意愿,即消费意图,此外,微博平台上包含着用户对商品各方面评价的用户评论也影响消费者的购买决策。这些包含消费意图和情感倾向的数据对科学研究和商业应用有着极高的价值。本文以微博中电影主创人员的电影评论为研究对象,重点关注评论中的消费意图和情感信息挖掘,并探讨将这种信息用于票房预测。具体来说本文的工作主要包括以下五个方面:(1)对消费意图分类进行重定义:在微博评论中即便用户表达出了消费意图,也不一定代表会有消费行为,因为消费意图正例包括显式消费意图和隐式消费意图。因此,本文将消费意图正例定义为显示消费意图,即明确表明要进行消费的用户。(2)对情感分类标准进行重定义:由于正面评论的数量和票房之间没有直接的关系。因此本文首先假设如果有更多的微博评论是和票房增长相关,则电影的票房会更好。基于这个假设将经过主客观分类的微博评论分为3类:正面评论即消费意图正例;中性评论即对影片、演员等表达积极情感的评论;负面评论是对剧情、演技等表达负面或者消极的情感。(3)基于SVM的消费意图挖掘:本文提出了基于SVM的消费意图分类算法,首先通过对微博语料的观察,定义消费意图正例的2类特征;然后采用人工标注的方式获得消费意图正例;将定义的2类特征用来表示评论文本并训练出消费意图分类模型,并利用该模型对给定的微博评论进行消费意图分类;最后将分类结果与人工标注的结果对比,准确率高达73%。(4)基于SVM的情感分类:为了对评论中的信息进行挖掘,本文首先对已有的情感资源加以概括和总结,使用扩展的点互信息算法(SO-PMI)判断候选词的情感类别,自动获得领域词典,构建一个面向微博电影评论的情感词典。然后,由于微博表达方式的多元化,首先对评论文本进行预处理,采用情感词作为特征选择;最后使用Libsvm进行情感分类。(5)将消费意图和情感分析用于票房预测:本文探讨了将消费意图和情感分析应用于票房预测,并使用线性回归模型和SVR分别进行了实验。结果表明,融入了消费意图的模型在首映周有更好的预测效果,其对首映周的票房解释能力高达87%。此外,本文提出的模型和Baseline实验对比,首映周相对误差绝对值降低了24个百分点;总票房的相对误差绝对值降低了14个百分点。
【关键词】:消费意图 情感分析 票房预测 支持向量机 线性回归模型
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:J943;F713.55
【目录】:
  • 摘要5-6
  • ABSTRACT6-11
  • 1 绪论11-21
  • 1.1 研究背景及意义11-12
  • 1.2 研究现状12-18
  • 1.2.1 票房预测研究现状12-15
  • 1.2.2 消费意图研究现状15-16
  • 1.2.3 情感分析研究现状16-18
  • 1.3 本文工作18-19
  • 1.4 本文结构19-20
  • 1.5 本章小结20-21
  • 2 相关概念及技术21-33
  • 2.1 微博相关概述21-22
  • 2.1.1 微博的定义及发展21
  • 2.1.2 微博文本中的符号21-22
  • 2.1.3 中文微博研究中的难点22
  • 2.2 文本预处理22-27
  • 2.2.1 中文分词22-26
  • 2.2.2 去掉停用词26-27
  • 2.3 特征选择27-29
  • 2.3.1 词频法27-28
  • 2.3.2 文档频率法28
  • 2.3.3 互信息法28-29
  • 2.3.4 信息增益法29
  • 2.3.5 CHI统计29
  • 2.4 情感分类方法29-32
  • 2.4.1 基于词典和规则相结合的方法30
  • 2.4.2 基于机器学习的方法30-32
  • 2.5 本章小结32-33
  • 3 基于SVM的微博消费意图分类33-36
  • 3.1 引入微博消费意图的原因33-34
  • 3.2 消费意图语料的获取与标注34
  • 3.3 基于SVM的消费意图挖掘34-35
  • 3.3.1 问题描述34-35
  • 3.3.2 微博消费意图分类35
  • 3.4 本章小结35-36
  • 4 微博情感词典构建和情感极性分类36-46
  • 4.1 情感词典相关介绍36-38
  • 4.1.1 情感术语说明36
  • 4.1.2 情感词典的重要性36-37
  • 4.1.3 微博情感词典的构成37-38
  • 4.2 情感词典的构建38-44
  • 4.2.1 基础情感词典38
  • 4.2.2 网络用语情感词典38-39
  • 4.2.3 表情符号情感词典39-40
  • 4.2.4 否定词词典40-41
  • 4.2.5 领域情感词典41-44
  • 4.3 基于SVM的中文微博情感极性分类44-45
  • 4.3.1 文本表示模型44
  • 4.3.2 基于SVM的中文微博情感极性分类44-45
  • 4.4 本章小结45-46
  • 5 基于消费意图和情感分析的票房预测46-55
  • 5.1 问题引出46-49
  • 5.1.1 前向建模法46-47
  • 5.1.2 研究假设47-49
  • 5.2 预测模型49
  • 5.2.1 基于线性回归的票房预测模型49
  • 5.2.2 基于SVR的票房预测模型49
  • 5.3 实验结果与分析49-54
  • 5.3.1 数据准备49-50
  • 5.3.2 评价指标50-51
  • 5.3.3 实验设计51
  • 5.3.4 结果分析51-54
  • 5.4 本章小结54-55
  • 6 总结与展望55-57
  • 6.1 全文总结55
  • 6.2 进一步的研究方向55-57
  • 致谢57-58
  • 参考文献58-61
  • 附录 161

【相似文献】

中国期刊全文数据库 前10条

1 峻冰;;中国电影评论的现状及未来[J];电影文学;2006年11期

2 李建强;;需要什么样的电影评论?[J];电影艺术;2006年01期

3 胡泊;;当下电影评论的迷失与建构[J];新疆艺术学院学报;2009年04期

4 王宜文;李t犵,

本文编号:441474


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/dianyingdianshilunwen/441474.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户398fb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com