基于深度学习混合模型的商品垃圾评论识别研究
发布时间:2023-03-12 18:02
随着互联网应用的不断发展,网络购物等线上消费行为已经逐渐成为社会中的一种潮流。线上电商平台每天都会产生海量评论数据,这些商品评论已经成为用户选择商品的主要依据。由于网络的开放性以及用户的言论自由,有些用户会给出一些垃圾评论,这些评论信息往往会影响用户体验,不仅不利于系统的维护与完善,也对信息资源造成了极大的浪费。为了解决上述问题并挖掘商品评论信息中蕴含的价值,本文综合利用数据爬虫、模型构建以及实验对比等手段进行研究,论文的主要工作如下:(1)对京东商城网站进行目标商品信息和评论爬取。本文基于Scrapy框架,根据网页的XPath路径对网页进行分析,通过多线程模型加快爬虫速度,利用改进网络爬虫策略获取更有价值的各类商品评论信息,最终将数据储存到MongoDB中,为后期训练分类模型做准备。(2)针对传统机器学习在处理评论文本分类时存在的不足,深度学习可以有效地解决了人工干预的问题,能够自动的获取数据中的结构特征,大大节约了人力和时间成本。因此,本文利用深度学习中CNN识别局部特征与LSTM利用文本序列的优势,并结合注意力机制,提出了一种基于注意力机制的CLSTM混合模型算法,最大化地提取上...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 文本分类研究现状
1.2.2 深度学习研究现状
1.3 本文主要工作
1.4 论文组织结构与安排
第2章 相关理论与技术
2.1 文本预处理
2.1.1 中文分词
2.1.2 停用词
2.2 词向量
2.2.1 CBOW模型
2.2.2 Skip-gram模型
2.3 文本分类算法
2.3.1 SVM算法
2.3.2 CNN算法
2.3.3 LSTM算法
2.4 注意力机制
2.4.1 编码-解码模型
2.4.2 注意力机制
2.5 本章小结
第3章 基于改进爬虫策略的商品评论爬取研究
3.1 网络爬虫的基本原理
3.2 常见的网络爬虫类型
3.2.1 通用网络爬虫
3.2.2 聚焦网络爬虫
3.2.3 增量式网络爬虫
3.3 改进的网络爬虫策略
3.4 基于Scrapy框架的网络爬虫总体设计
3.4.1 Scrapy爬虫程序框架
3.4.2 爬虫数据库MongoDB
3.5 网络爬虫实现
3.5.1 定义参数
3.5.2 爬取操作
3.5.3 数据存储
3.6 爬虫程序对比分析
3.7 本章小结
第4章 基于Attention-CLSTM模型的商品评论分类研究
4.1 文本分类流程
4.2 垃圾评论的基本特征
4.3 文本预处理
4.4 词向量训练
4.5 基于注意力机制的CLSTM混合模型实现文本分类
4.5.1 CNN提取评论短语特征序列
4.5.2 LSTM提取文本特征
4.5.3 注意力引用
4.5.4 softmax分类
4.6 实验结果与分析
4.6.1 数据集
4.6.2 参数设置
4.6.3 评价指标
4.6.4 实验结果
4.7 本章小结
第5章 结论与展望
参考文献
攻读学位期间发表的论文
致谢
详细摘要
本文编号:3761691
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 文本分类研究现状
1.2.2 深度学习研究现状
1.3 本文主要工作
1.4 论文组织结构与安排
第2章 相关理论与技术
2.1 文本预处理
2.1.1 中文分词
2.1.2 停用词
2.2 词向量
2.2.1 CBOW模型
2.2.2 Skip-gram模型
2.3 文本分类算法
2.3.1 SVM算法
2.3.2 CNN算法
2.3.3 LSTM算法
2.4 注意力机制
2.4.1 编码-解码模型
2.4.2 注意力机制
2.5 本章小结
第3章 基于改进爬虫策略的商品评论爬取研究
3.1 网络爬虫的基本原理
3.2 常见的网络爬虫类型
3.2.1 通用网络爬虫
3.2.2 聚焦网络爬虫
3.2.3 增量式网络爬虫
3.3 改进的网络爬虫策略
3.4 基于Scrapy框架的网络爬虫总体设计
3.4.1 Scrapy爬虫程序框架
3.4.2 爬虫数据库MongoDB
3.5 网络爬虫实现
3.5.1 定义参数
3.5.2 爬取操作
3.5.3 数据存储
3.6 爬虫程序对比分析
3.7 本章小结
第4章 基于Attention-CLSTM模型的商品评论分类研究
4.1 文本分类流程
4.2 垃圾评论的基本特征
4.3 文本预处理
4.4 词向量训练
4.5 基于注意力机制的CLSTM混合模型实现文本分类
4.5.1 CNN提取评论短语特征序列
4.5.2 LSTM提取文本特征
4.5.3 注意力引用
4.5.4 softmax分类
4.6 实验结果与分析
4.6.1 数据集
4.6.2 参数设置
4.6.3 评价指标
4.6.4 实验结果
4.7 本章小结
第5章 结论与展望
参考文献
攻读学位期间发表的论文
致谢
详细摘要
本文编号:3761691
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3761691.html
最近更新
教材专著