基于改进BiGRU的类别不平衡文本分类算法研究
发布时间:2023-08-18 16:40
伴随着信息技术的迅猛发展,互联网每天都会产生海量的数据。数据分类是信息管理的一种重要手段而文本分类是数据分类中重要的一种。然而,在现实中,由于数据收集方法等原因,需要进行分类的文本数据往往是类别不平衡的,即不同类别的样本数目差异较大。在训练时,若样本数目少的类(少数类)的特征不明显,在预测时少数类样本倾向被预测成样本数目多的类(多数类),极大地影响分类效果。一般的文本分类算法较少考虑到文本数据的类别不平衡问题,在类别不平衡文本分类任务中,分类器无法很好地学习到少数类的特征。双向门控循环单元(BiGRU)是一种深度神经网络,在文本分类任务中,以低维词向量作为文本的特征输入到网络,从前后两个方向提取文本的特征,具有较强的提取文本特征的能力。但BiGRU没有专门针对类别不平衡问题进行设计,不能很好地应用在类别不平衡文本分类任务中。为此,结合类别不平衡问题中特征选择、欠采样和模型集成三种解决方法对BiGRU改进,本文提出了多通道词向量增强BiGRU-Attention模型,用于解决类别不平衡文本分类问题。(1)在特征选择方面,通过卡方检验方法提取各个类别的特征词得到类特征词词典,然后将文本中的...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景以及意义
1.2 国内外研究现状
1.2.1 基于深度学习的文本分类
1.2.2 类别不平衡问题
1.3 主要研究工作
1.4 论文组织结构
第二章 相关理论
2.1 文本分类
2.2 类别不平衡问题
2.3 Word2vec
2.3.1 CBOW
2.3.2 Skip-gram
2.4 注意力机制
2.5 循环神经网络
2.6 本章小结
第三章 问题分析与解决思路
3.1 问题分析
3.2 传统方法
3.3 算法思路
3.4 本章小结
第四章 算法设计
4.1 算法流程
4.2 词类别特征提取
4.2.1 类特征词提取
4.2.2 词类别特征表示获取
4.3 词向量增强BiGRU-Attention模型
4.3.1 嵌入层
4.3.2 BiGRU层
4.3.3 注意力层
4.3.4 分类结果输出与模型训练
4.4 多通道词向量增强BiGRU-Attention模型
4.5 本章小结
第五章 实验与分析
5.1 数据集与评价指标
5.1.1 数据集
5.1.2 评价指标
5.2 实验设置
5.2.1 实验环境
5.2.2 数据预处理
5.2.3 实验参数设置
5.3 实验结果与对比分析
5.3.1 对比实验结果与分析
5.3.2 消融实验结果与分析
5.3.3 不同特征融合方式实验结果与分析
5.3.4 不同通道数实验结果与分析
5.4 本章小结
总结与展望
参考文献
攻读学位期间发表的成果
致谢
本文编号:3842560
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景以及意义
1.2 国内外研究现状
1.2.1 基于深度学习的文本分类
1.2.2 类别不平衡问题
1.3 主要研究工作
1.4 论文组织结构
第二章 相关理论
2.1 文本分类
2.2 类别不平衡问题
2.3 Word2vec
2.3.1 CBOW
2.3.2 Skip-gram
2.4 注意力机制
2.5 循环神经网络
2.6 本章小结
第三章 问题分析与解决思路
3.1 问题分析
3.2 传统方法
3.3 算法思路
3.4 本章小结
第四章 算法设计
4.1 算法流程
4.2 词类别特征提取
4.2.1 类特征词提取
4.2.2 词类别特征表示获取
4.3 词向量增强BiGRU-Attention模型
4.3.1 嵌入层
4.3.2 BiGRU层
4.3.3 注意力层
4.3.4 分类结果输出与模型训练
4.4 多通道词向量增强BiGRU-Attention模型
4.5 本章小结
第五章 实验与分析
5.1 数据集与评价指标
5.1.1 数据集
5.1.2 评价指标
5.2 实验设置
5.2.1 实验环境
5.2.2 数据预处理
5.2.3 实验参数设置
5.3 实验结果与对比分析
5.3.1 对比实验结果与分析
5.3.2 消融实验结果与分析
5.3.3 不同特征融合方式实验结果与分析
5.3.4 不同通道数实验结果与分析
5.4 本章小结
总结与展望
参考文献
攻读学位期间发表的成果
致谢
本文编号:3842560
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3842560.html