基于深度学习理论的中文文本分类技术研究

发布时间:2021-03-04 22:57
  文本分类是信息挖掘的关键技术之一,在新闻分类、情感类别分析和舆情监督中都有广泛的应用。传统的基于词袋模型和向量空间模型的文本表示方法存在特征提取能力不足和特征信息损失大的问题,而在面对较复杂的文本结构以及多分类、数据不均衡等问题时,这些基于传统的统计学习和机器学习的分类算法的分类性能和模型泛化能力都将受到限制。本文主要在文本的表示方法和深度学习模型两方面研究中文文本的分类技术,将中文文本表示方法和优秀的深度学习算法相结合,在文本分类任务中实现理想的分类效果。本文的研究工作包含以下几个方面:1.基于字符级卷积神经网络的中文文本分类研究。针对中文文本中的多分类问题,提出一种基于字符级文本表示和卷积神经网络的分类方法。首先基于该任务构建了规模达到575000的汉字字符数据集及其对应的三种拼音格式数据集。对于汉字字符数据集,以汉字字符和标点符号构建字符字典;对于三种拼音格式的数据集,以拼音字母、数字以及标点符号分别构建字符字典。然后基于四种字符字典,分别建立相应的字符级文本表示作为模型的输入。最后在汉字字符及其对应的三种拼音格式数据集上进行模型的训练测试。实验结果表明,模型在汉字字符数据集上的... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:89 页

【学位级别】:硕士

【部分图文】:

基于深度学习理论的中文文本分类技术研究


系统登录界面(a)和注册界面(b)

序列,数据,训练操作,结合训练


图 5-5 导入数据积神经网络模型的数据,首先要建立字典,然列表示,再对数据设设置固定的序列长度,对部分,对不足固定值的序列用全零向量填充。力机制和双向独立循环神经网络模型的数据,特殊符号,形成格式统一的文本。然后用分词中所有对情感类别分析无意义的停用词。最后结合训练所有词语的词向量。务需求,选择应该使用的算法模型。如果还没训练操作,在训练集和验证集上进行训练;接

序列,和数,算法,文本


使用字符级卷积神经网络模型的数据,首先要建立字典,然后依据字典将ne-hot 向量序列表示,再对数据设设置固定的序列长度,对超出固定值的且忽略超出的部分,对不足固定值的序列用全零向量填充。使用基于注意力机制和双向独立循环神经网络模型的数据,首先要清洗中的标点以及特殊符号,形成格式统一的文本。然后用分词工具对所有文接着去除文本中所有对情感类别分析无意义的停用词。最后利用大型的中传的数据集相结合训练所有词语的词向量。型分类根据自己的任务需求,选择应该使用的算法模型。如果还没有利用模型对则应首先选择训练操作,在训练集和验证集上进行训练;接着选择测试操试集上测试;完成模型的训练测试后,就可以对无标签的预测集或者单个操作判断文本或情感类别。算法和数据操作选择界面如图 5-6 所示。


本文编号:3064080

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3064080.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6e04***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com