基于文本挖掘的在线评论应用研究
发布时间:2023-03-11 14:27
近年来,快速发展的互联网能够使消费者在不受任何时间、空间地域限制的情况下选择购买商品。电商平台在互联网上提供各种商品的同时,也提供了关于共享信息的渠道,因此产生了在线评论,在线评论指的是网络消费者在电子商务平台或者其他评论网站上发表商品或者服务等观点。现如今电商平台上消费者众多,所以产生的评价数据也是杂乱无章的,而当消费者选择网上购物时,依据网络上的评论很难有正确的抉择,同时厂家根据消费者的网络评价信息也不容易做出准确的调整。因此如何从大量的信息中获取有价值性的信息成为目前文本挖掘的研究方向。本文基于文本挖掘的相关理论,以华为荣耀Magic Book2019笔记本电脑价格在4000-6000元为研究对象,利用网页爬取和八爪鱼数据采集器两种模式采集数据,不同于以往的单一模式,这样采集到的数据会更全面准确。接着对采集到的笔记本评论数据进行预处理,包括中文文本分词处理、特殊字符处理以及分词处理,其中分词处理主要利用jieba分词实现,从而保证处理后的数据能够顺利进行模型的训练,为接下来的构建模型奠定数据基础。通过构建情感词典,对于所得到的好评集和差评集再利用朴素贝叶斯算法对其进行实验模型训练...
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题的研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状及文献综述
1.2.1 文本情感分类研究
1.2.2 文本挖掘技术研究
1.2.3 文献综述
1.3 研究内容及方法
第2章 文本挖掘相关技术与理论介绍
2.1 网络爬虫
2.2 文本预处理
2.2.1 中文文本分词
2.2.2 停用词过滤
2.2.3 词性标注
2.2.4 文本的表示
2.3 文本挖掘技术
2.3.1 特征选择
2.3.2 文本表示模型
2.3.3 特征权重计算
2.4 朴素贝叶斯
2.5 LDA主题模型
第3章 笔记本评论数据的采集与预处理
3.1 数据的选取与采集
3.1.1 数据的选取
3.1.2 数据的采集
3.2 数据的预处理
3.2.1 数据的清洗
3.2.2 中文分词与去停用词
3.2.3 词频统计
第4章 评论数据的情感倾向分析
4.1 基于词典的情感分类
4.1.1 基于词典的构建
4.1.2 否定词典
4.1.3 情感分类结果
4.2 朴素贝叶斯文本分类
4.2.1 训练语料收集
4.2.2 实验步骤设计
4.2.3 实验步骤设计
第5章 消费者评论特征分析
5.1 基于词云图的可视化
5.2 LDA主题模型分析
5.2.1 LDA最优主题个数的确定
5.2.2 LDA主题模型分析过程
5.2.3 LDA主题模型结果分析
第6章 结论与展望
6.1 主要结论与建议
6.2 不足与展望
参考文献
附录
附录一 数据采集代码
附录二 数据清洗代码
附录三 文本分词代码
附录四 文本分词高频统计代码
附录五 情感分析代码
附录六 绘制词云图代码
附录七 朴素贝叶斯代码
附录八 LDA模型主题提取代码
攻读硕士学位期间论文发表及参加科研情况
致谢
本文编号:3759687
【文章页数】:49 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题的研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状及文献综述
1.2.1 文本情感分类研究
1.2.2 文本挖掘技术研究
1.2.3 文献综述
1.3 研究内容及方法
第2章 文本挖掘相关技术与理论介绍
2.1 网络爬虫
2.2 文本预处理
2.2.1 中文文本分词
2.2.2 停用词过滤
2.2.3 词性标注
2.2.4 文本的表示
2.3 文本挖掘技术
2.3.1 特征选择
2.3.2 文本表示模型
2.3.3 特征权重计算
2.4 朴素贝叶斯
2.5 LDA主题模型
第3章 笔记本评论数据的采集与预处理
3.1 数据的选取与采集
3.1.1 数据的选取
3.1.2 数据的采集
3.2 数据的预处理
3.2.1 数据的清洗
3.2.2 中文分词与去停用词
3.2.3 词频统计
第4章 评论数据的情感倾向分析
4.1 基于词典的情感分类
4.1.1 基于词典的构建
4.1.2 否定词典
4.1.3 情感分类结果
4.2 朴素贝叶斯文本分类
4.2.1 训练语料收集
4.2.2 实验步骤设计
4.2.3 实验步骤设计
第5章 消费者评论特征分析
5.1 基于词云图的可视化
5.2 LDA主题模型分析
5.2.1 LDA最优主题个数的确定
5.2.2 LDA主题模型分析过程
5.2.3 LDA主题模型结果分析
第6章 结论与展望
6.1 主要结论与建议
6.2 不足与展望
参考文献
附录
附录一 数据采集代码
附录二 数据清洗代码
附录三 文本分词代码
附录四 文本分词高频统计代码
附录五 情感分析代码
附录六 绘制词云图代码
附录七 朴素贝叶斯代码
附录八 LDA模型主题提取代码
攻读硕士学位期间论文发表及参加科研情况
致谢
本文编号:3759687
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3759687.html