基于深度学习的文本质量分类研究

发布时间:2021-04-17 01:06
  维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,可能会导致低质量文章(甚至错误信息)的产生。关于质量问题,每年有数百万的大学生、研究生毕业,论文的质量参差不齐,高校对于毕业生的论文也提出了越来越高的要求,应届生的论文在提交之前如何做到有效监控和修改,毕业论文这种长文本的自动质量分类,也是一个具有挑战的任务。在长文本质量分类领域,本文中利用深度学习方法实现文本质量自动分类,主要研究了英文维基百科条目、中文维基百科条目、硕士毕业论文,主要工作开展如下:1.针对交叉熵只关注分类正确的类别的问题,本文提出了改进的交叉熵函数,可以让模型更好地拟合数据分布。2.针对英文维基百科条目文本质量分类问题,本文提出了Att-LSTM自动分类方法,该方法是端到端的,没有特征工程的方法。在文本质量6分类对比试验中,准确率由69%提升到71%;同时将数据类别处理为3个大类,通过对比试验,得出注意力机制可以代替一些手工特征的结论。3.本文扩展了中文维基百科数据集,并提出了一个适用于中文维基百科文本... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

基于深度学习的文本质量分类研究


维基百科条目单词统计图

词数,章节,文本,长度


第四章硕士毕业生论文质量自动评估算法设计43图4-2章节文本词数长度绘图4.4.2实验环境本文实验选择Mxnet框架对模型进行实现,Mxnet是亚马逊的开源深度学习软件框架,选择Mxnet主要是因为它具有可扩展性,允许快速模型训练,支持深度学习的最新技术,并且作者直接讲解技术要点,Mxnet的高层接口Gluon支持灵活的动态图和高效的静态图,有助于程序训练过程中观察数据变化,提供自然语言方向的技术接口Gluonnlp,非常方便快速实现模型设计,并且GPU模型加速训练高效,能够快速的反馈实验结果,此外,训练好的模型具有较好的移植性,操作简单等特点。本实验涉及的相关实验环境如表4-2。本论文中设计的深度神经网络模型,需要高效算力,为了方便实验反馈,使用计算机和服务器并行运行实验,这样可以尽快获得实验反溃以及前期收集大量数据,需要耗费大量时间,因此尽最大资源加以利用。表4-2实验环境分类环境版本号硬件设施NvidiaGeforce显卡GTX10606G操作系统Windows101809开发环境Python3.6开发工具Pycharm2019.1.1开发框架Mxnet1.4.0

训练集,准确率


电子科技大学硕士学位论文444.4.3实验与结果分析本实验文本截取长度为8000,该模型的BiLSTM的神经元个数是256,学习率的初始值为0.001,每过两个周期就降低0.9倍,训练周期为20,批量大小为32,丢弃率为0.5,优化器为Adam,图4-1中γ手动设置均为1。图4-3是ChapterLSTM模型在训练过程中训练集、验证集上的F1值,图中可见模型训练集拟合很好,验证集上效果紧跟其后,达到91%的F1值。图4-4是ChapterLSTM方法在毕业论文上的训练损失值。可以看出该方法在损失值和准确率、F1值上比较稳定,在训练后期出现了一些过拟合,采取早停的方式防止出现过度拟合训练数据特征,模型在测试集上表现不佳的现象,因此截取训练周期取13,保存经过13周期训练的模型参数,进行后面预测集上的预测评估。图4-3训练集验证集准确率图4-4训练集验证集loss


本文编号:3142515

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3142515.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d62c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com