基于深度神经网络的长文本分类算法的设计与实现
发布时间:2023-04-06 23:14
文本分类是自然语言处理中的基本技术之一,许多研究都与文本分类有关,例如新闻主题分类、问答系统分类和电影评论分类等。如果依靠人工进行文本分类,不仅耗时长,而且效率低下,所以利用现有的计算机技术进行自动文本分类是非常重要的研究方向。本文主要研究了两大类文本分类的方法,一类是利用传统的机器学习方法进行文本分类,另一类是使用深度学习方法进行文本分类。首先本文基于传统的机器学习方法设计了两种分类器,一种是朴素贝叶斯分类器,另一种是支持向量机分类器。计算机不能处理文本,因此需要把文本表示成向量后才可以进行分类。这两种分类器采用的是基于词袋的词频映射方法和词频-逆文档频率特征表示的方法。在搜狗数据集和搜狐数据集上进行了实验验证,最终发现使用SVM分类器与TF-IDF特征相结合的文本分类器效果最好,在两个数据集上都达到了89%的准确率。接下来使用深度神经网络设计了两种文本分类模型,一种是使用标准的双向长短时记忆网络进行文本分类,另一种是将其与attention机制相结合进行文本分类。文本表示方法采用的是one-hot表示方法和基于skip-gram的词嵌入方法。最终在两个数据集上进行实验发现,Bi L...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 文本表示发展史
1.2.2 文本分类的发展史
1.3 论文的主要研究内容
1.4 论文的组织架构
第二章 相关背景知识介绍
2.1 文本预处理
2.1.1 中文分词
2.1.2 去除停用词
2.1.3 文本表示
2.2 朴素贝叶斯原理
2.3 支持向量机
2.3.1 线性分类
2.3.2 线性不可分
2.3.3 支持向量机输出概率
2.4 循环神经网络
2.4.1 循环神经网络概念模型
2.4.2 数学模型
2.4.3 长短时记忆网络
2.5 卷积神经网络
2.5.1 输入层
2.5.2 卷积层
2.5.3 池化层
2.5.4 激活层
2.5.5 全连接层
2.6 本章总结
第三章 基于传统机器学习方法进行文本分类
3.1 文本分词与去除停用词
3.2 词向量表示
3.2.1 词频映射
3.2.2 词频-逆文档特征
3.3 朴素贝叶斯分类
3.4 支持向量机分类
3.4.1 一对多支持向量机分类
3.4.2 一对一支持向量机分类
3.4.3 支持向量机分类模型
3.5 实验结果分析
3.5.1 实验数据
3.5.2 实验评测标准
3.5.3 实验结果
3.6 本章总结
第四章 基于循环神经网络的文本分类
4.1 文本表示
4.1.1 One-Hot表示
4.1.2 分布式词向量
4.2 双向长短时记忆网络
4.3 Attention机制
4.4 文本分类模型
4.4.1 基于双向长短时记忆网络的文本分类算法
4.4.2 基于双向长短时记忆网络与Attention机制相结合的文本分类算法
4.5 实验结果
4.5.1 词向量表示
4.5.2 分类结果
4.6 本章总结
第五章 基于卷积神经网络的文本分类
5.1 双向编码器模型
5.1.1 预测掩盖词
5.1.2 语句对预测
5.2 卷积神经网络分类模型
5.3 实验结果
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 程序清单
附录2 攻读硕士学位期间撰写的论文
附录3 攻读硕士学位期间申请的专利
附录4 攻读硕士学位期间参加的科研项目
致谢
本文编号:3784601
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 研究现状
1.2.1 文本表示发展史
1.2.2 文本分类的发展史
1.3 论文的主要研究内容
1.4 论文的组织架构
第二章 相关背景知识介绍
2.1 文本预处理
2.1.1 中文分词
2.1.2 去除停用词
2.1.3 文本表示
2.2 朴素贝叶斯原理
2.3 支持向量机
2.3.1 线性分类
2.3.2 线性不可分
2.3.3 支持向量机输出概率
2.4 循环神经网络
2.4.1 循环神经网络概念模型
2.4.2 数学模型
2.4.3 长短时记忆网络
2.5 卷积神经网络
2.5.1 输入层
2.5.2 卷积层
2.5.3 池化层
2.5.4 激活层
2.5.5 全连接层
2.6 本章总结
第三章 基于传统机器学习方法进行文本分类
3.1 文本分词与去除停用词
3.2 词向量表示
3.2.1 词频映射
3.2.2 词频-逆文档特征
3.3 朴素贝叶斯分类
3.4 支持向量机分类
3.4.1 一对多支持向量机分类
3.4.2 一对一支持向量机分类
3.4.3 支持向量机分类模型
3.5 实验结果分析
3.5.1 实验数据
3.5.2 实验评测标准
3.5.3 实验结果
3.6 本章总结
第四章 基于循环神经网络的文本分类
4.1 文本表示
4.1.1 One-Hot表示
4.1.2 分布式词向量
4.2 双向长短时记忆网络
4.3 Attention机制
4.4 文本分类模型
4.4.1 基于双向长短时记忆网络的文本分类算法
4.4.2 基于双向长短时记忆网络与Attention机制相结合的文本分类算法
4.5 实验结果
4.5.1 词向量表示
4.5.2 分类结果
4.6 本章总结
第五章 基于卷积神经网络的文本分类
5.1 双向编码器模型
5.1.1 预测掩盖词
5.1.2 语句对预测
5.2 卷积神经网络分类模型
5.3 实验结果
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
附录1 程序清单
附录2 攻读硕士学位期间撰写的论文
附录3 攻读硕士学位期间申请的专利
附录4 攻读硕士学位期间参加的科研项目
致谢
本文编号:3784601
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3784601.html
最近更新
教材专著