改进的深度学习算法在中文文本分类中的应用

发布时间:2023-06-03 00:35
  分类问题是目前非常重要并且具有普遍意义的问题,我们生活中有很多问题归根到底都是分类问题。文本分类作为互联网文本处理以及信息检索的核心,在自然语言处理领域中占据十分重要的地位。如今互联网上中文新闻文本数量呈指数级水平爆炸增加,如何准确有效地对海量新闻数据进行分类进而从中挖掘到有效的信息,是当前急需解决的问题。传统的文本分类方法虽然能够提高分类效果,但仍然存在维度爆炸、特征稀疏等问题。随着深度学习在文本分类中的广泛应用,其能够有效地避免这些问题,并取得显著的效果。本文重点研究基于深度学习技术并使用更高效的方法实现新闻文本分类,以提高信息检索的效率,主要将深度学习中的模型融合技术应用在搜狗新闻文本分类任务中,具体的研究内容如下:(1)以搜狗新闻文本数据为目标数据集,首先针对样本数据存在的严重不均衡问题引入了简单数据增强(Easy Data Augmentation,EDA),对样本数量很少的类别进行扩增,通过多组实验表明数据增强后的分类效果优于数据增强前,证明了引入EDA能够有效地提高模型的泛化能力。然后将卷积神经网络(CNN)、双向门控循环神经网络(BiGRU)与注意力机制(Attenti...

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文组织结构
第二章 文本分类技术介绍
    2.1 文本预处理
        2.1.1 文本数据增强
        2.1.2 分词
        2.1.3 去停用词
        2.1.4 文本表示
    2.2 传统文本分类方法
        2.2.1 朴素贝叶斯
        2.2.2 K-最近邻
        2.2.3 支持向量机
        2.2.4 Softmax分类器
    2.3 深度学习文本分类方法
        2.3.1 卷积神经网络
        2.3.2 循环神经网络
        2.3.3 注意力机制
    2.4 集成学习方法
    2.5 性能评价指标
    2.6 本章小结
第三章 基于CBA模型的新闻文本分类研究
    3.1 基于EDA进行新闻文本数据增强
    3.2 CBA模型设计
    3.3 基于CBA模型的新闻文本分类流程
        3.3.1 数据预处理
        3.3.2 特征提取
        3.3.3 训练模型进行分类
    3.4 实验与分析
        3.4.1 实验环境和数据
        3.4.2 实验具体设计
        3.4.3 实验参数设置
        3.4.4 实验结果与分析
    3.5 本章小结
第四章 基于ECBA模型的新闻文本分类研究
    4.1 ECBA模型设计
    4.2 ECBA模型处理流程
    4.3 实验与分析
        4.3.1 实验环境和数据
        4.3.2 实验具体设计
        4.3.3 实验参数设置
        4.3.4 实验结果与分析
    4.4 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的学术成果
致谢



本文编号:3828326

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3828326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户918bd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com