基于消费者评论的汽车品牌舆情分析
发布时间:2021-09-05 05:57
随着现代信息技术和互联网的高速发展,产生了大量的舆情信息,通过舆情分析发掘有用的信息和价值越来越受到人们的重视。本文试图将舆情分析的思想应用于汽车销售这样的商业领域,通过消费者对汽车品牌的评论发掘消费者对于汽车品牌的关注点并进一步分析不同汽车品牌的优缺点。本文主要将研究分为两个阶段来进行,分别为数据、获取整理阶段和数据分析阶段。在数据获取、整理阶段,本文首先探讨了多种网络爬虫技术,然后通过这些技术手段将论坛、微博等舆情网站中的与汽车品牌相关的评论爬取下来,并将待分析文本通过采集词比对,自动将不同类型的评论归类到结构化的表格中,通过基于最大概率法和隐马尔科夫模型的中文分词技术将文本信息分词,并统计出词频。通过基于情感词典的情感分类算法将消费者的评论分为正面评价、负面评价和中性评价,并统计出各品牌三种评价的频数。在数据分析阶段。本文首先通过主成分分析法,依据各品牌各汽车维度正面评价比例,将各汽车品牌旗下的汽车分为三个方面来进行评价,并得出了与现实较一致的结论,并对结论进行了解释说明,对于要买车的潜在消费者具有一定的参考意义。然后,本文探索了汽车维度正面评价数与汽车品牌销量之间的重要性关系,...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
通用爬虫流程图 通用爬虫有以下的不足:(1)由于在一个较大范围内抓取目标,所以可能
图 2-2 主题网络爬虫流程图 2 种爬虫技术,可以看出:通用网络爬虫起始于初始 UR个网页内容;主题网络爬虫在兼具抓取网页内容的同时,进行分析。用户可以查询主题网络爬虫提供的数据资源,容的目的。的文本数据是通过联合以上 2 种网络爬虫技术得来的。用的分词技术介绍 大概率分词算法的中文分词方法一串字分割成独立的词的过程,中文分词就是将一串中文义的词的过程。中文分词技术应用已经在我们生活中随处有分词技术,那么检索时只会按照单个字的意思,很可能
图 3-1 自变量和因变量关系示意图 以第 1 个自变量为例:从右向左,第 1 个回归方程描述原始自变量( )和正交变量( )的关系,可列方程: = + + 表示 关于 的回归系数。第 2 个回归方程描述正交变量( )和因变量( )之间的关系,可表示为: = + + 表 示关于 的回归系数。因此, 的相对权重 可以表示为: = + + 3.2.2 相对权重的数学原理将 ×1列矩阵设为因变量 ,将满秩的 × 阶矩阵设为自变量( , , , ),变量均进行了标准化处理,那么自变量矩阵 的正交变换可用 = 来表示。
本文编号:3384812
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
通用爬虫流程图 通用爬虫有以下的不足:(1)由于在一个较大范围内抓取目标,所以可能
图 2-2 主题网络爬虫流程图 2 种爬虫技术,可以看出:通用网络爬虫起始于初始 UR个网页内容;主题网络爬虫在兼具抓取网页内容的同时,进行分析。用户可以查询主题网络爬虫提供的数据资源,容的目的。的文本数据是通过联合以上 2 种网络爬虫技术得来的。用的分词技术介绍 大概率分词算法的中文分词方法一串字分割成独立的词的过程,中文分词就是将一串中文义的词的过程。中文分词技术应用已经在我们生活中随处有分词技术,那么检索时只会按照单个字的意思,很可能
图 3-1 自变量和因变量关系示意图 以第 1 个自变量为例:从右向左,第 1 个回归方程描述原始自变量( )和正交变量( )的关系,可列方程: = + + 表示 关于 的回归系数。第 2 个回归方程描述正交变量( )和因变量( )之间的关系,可表示为: = + + 表 示关于 的回归系数。因此, 的相对权重 可以表示为: = + + 3.2.2 相对权重的数学原理将 ×1列矩阵设为因变量 ,将满秩的 × 阶矩阵设为自变量( , , , ),变量均进行了标准化处理,那么自变量矩阵 的正交变换可用 = 来表示。
本文编号:3384812
本文链接:https://www.wllwen.com/guanlilunwen/shengchanguanlilunwen/3384812.html