基于深度学习的文本质量分类研究

发布时间：2021-04-17 01:06

　　维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,可能会导致低质量文章（甚至错误信息）的产生。关于质量问题,每年有数百万的大学生、研究生毕业,论文的质量参差不齐,高校对于毕业生的论文也提出了越来越高的要求,应届生的论文在提交之前如何做到有效监控和修改,毕业论文这种长文本的自动质量分类,也是一个具有挑战的任务。在长文本质量分类领域,本文中利用深度学习方法实现文本质量自动分类,主要研究了英文维基百科条目、中文维基百科条目、硕士毕业论文,主要工作开展如下:1.针对交叉熵只关注分类正确的类别的问题,本文提出了改进的交叉熵函数,可以让模型更好地拟合数据分布。2.针对英文维基百科条目文本质量分类问题,本文提出了Att-LSTM自动分类方法,该方法是端到端的,没有特征工程的方法。在文本质量6分类对比试验中,准确率由69%提升到71%;同时将数据类别处理为3个大类,通过对比试验,得出注意力机制可以代替一些手工特征的结论。3.本文扩展了中文维基百科数据集,并提出了一个适用于中文维基百科文本...

【文章来源】：电子科技大学四川省 211工程院校 985工程院校教育部直属院校

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

基于深度学习的文本质量分类研究

维基百科条目单词统计图

词数,章节,文本,长度

第四章硕士毕业生论文质量自动评估算法设计43图4-2章节文本词数长度绘图4.4.2实验环境本文实验选择Mxnet框架对模型进行实现，Mxnet是亚马逊的开源深度学习软件框架，选择Mxnet主要是因为它具有可扩展性，允许快速模型训练，支持深度学习的最新技术，并且作者直接讲解技术要点，Mxnet的高层接口Gluon支持灵活的动态图和高效的静态图，有助于程序训练过程中观察数据变化，提供自然语言方向的技术接口Gluonnlp，非常方便快速实现模型设计，并且GPU模型加速训练高效，能够快速的反馈实验结果，此外，训练好的模型具有较好的移植性，操作简单等特点。本实验涉及的相关实验环境如表4-2。本论文中设计的深度神经网络模型，需要高效算力，为了方便实验反馈，使用计算机和服务器并行运行实验，这样可以尽快获得实验反溃以及前期收集大量数据，需要耗费大量时间，因此尽最大资源加以利用。表4-2实验环境分类环境版本号硬件设施NvidiaGeforce显卡GTX10606G操作系统Windows101809开发环境Python3.6开发工具Pycharm2019.1.1开发框架Mxnet1.4.0

训练集,准确率

电子科技大学硕士学位论文444.4.3实验与结果分析本实验文本截取长度为8000，该模型的BiLSTM的神经元个数是256，学习率的初始值为0.001，每过两个周期就降低0.9倍，训练周期为20，批量大小为32，丢弃率为0.5，优化器为Adam，图4-1中γ手动设置均为1。图4-3是ChapterLSTM模型在训练过程中训练集、验证集上的F1值，图中可见模型训练集拟合很好，验证集上效果紧跟其后，达到91%的F1值。图4-4是ChapterLSTM方法在毕业论文上的训练损失值。可以看出该方法在损失值和准确率、F1值上比较稳定,在训练后期出现了一些过拟合，采取早停的方式防止出现过度拟合训练数据特征，模型在测试集上表现不佳的现象，因此截取训练周期取13，保存经过13周期训练的模型参数，进行后面预测集上的预测评估。图4-3训练集验证集准确率图4-4训练集验证集loss

本文编号：3142515

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3142515.html

上一篇：基于多视角外推网络的精确自动Cobb角评估
下一篇：非刚体连接双目视觉误差分析与实验验证

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|