基于文档表示的文本分类算法研究
发布时间:2022-02-22 21:07
随着深度学习的兴起,大量数据的产生,包括文本、语音、图片等等,如何从大量数据中学习到有用的特征是当前最重要的组成部分。在自然语言处理领域,学习文档表示对精确理解自然语言至关重要,同时可以把其运用到各种自然语言处理的任务中去,包括文本分类,文本相似度匹配,命名体识别等等。本文围绕循环神经网络与BERT模型开展研究,对这两个网络架构的输入或者输出进行优化,提高模型的泛化性能,并在文本分类任务上进行研究,验证分类算法的扩展性。本文的成果与主要工作如下:1.针对长短期记忆网络训练文本分类任务效果不佳,为更好地学习文档表示训练文本分类设计了带池化与dropout的长短期记忆网络来进行文档的表示,其中池化操作可以保留主要的特征同时减少参数和计算量,同时获得定长输出;dropout也对有监督的学习文档表示起到防止过拟合,提高泛化性能的表现。对比词袋模型、卷积神经网络、长短期记忆网络等模型,在四个数据集上优化后的长短期记忆网络比直接利用长短期记忆网络在准确率上至少提升0.2%。2.针对目前在自然语言处理领域表现较好的BERT模型存在输出层softmax产生类别的概率分布过于单一;同时受mixture ...
【文章来源】:合肥工业大学安徽省211工程院校教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容与难点
1.4 本文的组织结构
第二章 文档表示的相关算法介绍
2.1 语言模型
2.2 文本数据的特征提取器
2.2.1 卷积神经网络
2.2.2 循环神经网络
2.2.3 Transformer模型
2.2.4 分析三个模型的优缺点
2.3 本章小结
第三章 基于带dropout与池化的LSTM文本表示
3.1 模型的构建原理阐述
3.1.1 词向量层
3.1.2 dropout
3.1.3 双向长短期记忆网络
3.1.4 池化
3.1.5 模型的主要架构
3.2 实验数据准备与模型介绍
3.2.1 实验数据
3.2.2 文本数据的预处理
3.2.3 实验模型及参数设置
3.3 实验结果分析
3.3.1 模型之间的比较结果分析
3.3.2 dropout对模型的影响
3.3.3 池化操作对模型的影响
3.4 本章小结
第四章 基于混合softmax的 BERT模型
4.1 混合softmax的 BERT模型原理的阐述
4.1.1 BERT模型的介绍
4.1.2 混合softmax
4.1.3 优化函数
4.1.4 模型架构说明
4.2 实验数据
4.2.1 实验数据说明
4.2.2 文本预处理过程
4.3 实验结果分析
4.3.1 预训练模型与直接训练模型的对比
4.3.2 混合softmax的实验分析
4.3.3 随机种子对模型的影响
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 工作展望
参考文献
攻读硕士学位期间的学术活动及成果情况
本文编号:3640205
【文章来源】:合肥工业大学安徽省211工程院校教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
abstract
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状
1.3 本文研究内容与难点
1.4 本文的组织结构
第二章 文档表示的相关算法介绍
2.1 语言模型
2.2 文本数据的特征提取器
2.2.1 卷积神经网络
2.2.2 循环神经网络
2.2.3 Transformer模型
2.2.4 分析三个模型的优缺点
2.3 本章小结
第三章 基于带dropout与池化的LSTM文本表示
3.1 模型的构建原理阐述
3.1.1 词向量层
3.1.2 dropout
3.1.3 双向长短期记忆网络
3.1.4 池化
3.1.5 模型的主要架构
3.2 实验数据准备与模型介绍
3.2.1 实验数据
3.2.2 文本数据的预处理
3.2.3 实验模型及参数设置
3.3 实验结果分析
3.3.1 模型之间的比较结果分析
3.3.2 dropout对模型的影响
3.3.3 池化操作对模型的影响
3.4 本章小结
第四章 基于混合softmax的 BERT模型
4.1 混合softmax的 BERT模型原理的阐述
4.1.1 BERT模型的介绍
4.1.2 混合softmax
4.1.3 优化函数
4.1.4 模型架构说明
4.2 实验数据
4.2.1 实验数据说明
4.2.2 文本预处理过程
4.3 实验结果分析
4.3.1 预训练模型与直接训练模型的对比
4.3.2 混合softmax的实验分析
4.3.3 随机种子对模型的影响
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 工作展望
参考文献
攻读硕士学位期间的学术活动及成果情况
本文编号:3640205
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3640205.html
最近更新
教材专著