基于字符级卷积神经网络的中文文本分类研究
发布时间:2022-07-20 15:52
随着移动互联网迅猛发展,移动端网民的爆发式增长使得每一个人都可以成为一个小型的自媒体,其内容也主要以文本的形式而传播,形成了一个以内容为主的新信息时代。每天都有数亿计的内容在各个平台上产生,如新闻内容、自媒体文章、产品评论等,如何将这些内容利用起来,挖掘出其潜在价值是自然语言处理的重要任务目标。文本分类作为其中首要的一个任务,在于将这些文本分类到预先指定的类别之中,使得减轻工作人员的负担。但是现如今的文本内容中或多或少的会出现内容不规范、出现错别字等拼写错误的情况,使得基于使用词语作为文本的特征的模型出现分类效果降低。使用基于词语作为特征的模型同样会受到分词步骤的影响,分词的好坏在一定程度上决定了最终分类结果的好坏。同样随着移动端设备数量的增长,移动设备存在各方面诸如内存的限制,如何将其实际应用落地到移动端也是一个亟待解决的问题。基于以上考虑,在本文中对基于字符级别的卷积神经网络模型做了研究,概括如下:用于中文字符表示的编码方式特点分析。用于中文字符表示的编码方式有拼音编码、UTF-8编码、图片编码、随机字符嵌入向量以及预训练字符嵌入向量五种方式。文中对这五种字符的表示方式进行了全方位...
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 文本分类研究现状
1.3 论文的研究内容
1.4 论文的结构安排
第2章 相关理论介绍
2.1 文本特征的向量表示方式
2.1.1 布尔模型
2.1.2 向量空间模型
2.1.3 嵌入向量模型
2.2 传统文本分类方法
2.2.1 朴素贝叶斯分类器
2.2.2 k近邻学习
2.2.3 支持向量机方法
2.3 深度学习中的文本分类方法
2.3.1 M-P神经元
2.3.2 多层感知机
2.3.3 循环神经网络
2.3.4 卷积神经网络
2.4 本章小结
第3章 中文表示方法与字符级卷积神经网络
3.1 词级别表示方法
3.2 字级别表示方法
3.2.1 拼音编码方式
3.2.2 UTF-8编码方式
3.2.3 图片编码方式
3.2.4 随机字符嵌入向量
3.3 预训练中文字符嵌入向量
3.3.1 Skip-gram模型
3.3.2 单独学习汉字嵌入向量的预训练方式
3.3.3 共同学习汉字与词语嵌入向量的预训练方式
3.4 字符嵌入向量学习结果展示
3.5 不同字符表示方式的映射层
3.6 字符级卷积神经网络模型设计
3.7 本章小结
第4章 实验与结果分析
4.1 实验环境
4.2 数据集与预处理
4.3 实验结果及分析
4.3.1 实验结果
4.3.2 结果分析
4.4 本章小结
第5章 结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[2]分段卷积神经网络在文本情感分析中的应用[J]. 杜昌顺,黄磊. 计算机工程与科学. 2017(01)
本文编号:3664283
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 文本分类研究现状
1.3 论文的研究内容
1.4 论文的结构安排
第2章 相关理论介绍
2.1 文本特征的向量表示方式
2.1.1 布尔模型
2.1.2 向量空间模型
2.1.3 嵌入向量模型
2.2 传统文本分类方法
2.2.1 朴素贝叶斯分类器
2.2.2 k近邻学习
2.2.3 支持向量机方法
2.3 深度学习中的文本分类方法
2.3.1 M-P神经元
2.3.2 多层感知机
2.3.3 循环神经网络
2.3.4 卷积神经网络
2.4 本章小结
第3章 中文表示方法与字符级卷积神经网络
3.1 词级别表示方法
3.2 字级别表示方法
3.2.1 拼音编码方式
3.2.2 UTF-8编码方式
3.2.3 图片编码方式
3.2.4 随机字符嵌入向量
3.3 预训练中文字符嵌入向量
3.3.1 Skip-gram模型
3.3.2 单独学习汉字嵌入向量的预训练方式
3.3.3 共同学习汉字与词语嵌入向量的预训练方式
3.4 字符嵌入向量学习结果展示
3.5 不同字符表示方式的映射层
3.6 字符级卷积神经网络模型设计
3.7 本章小结
第4章 实验与结果分析
4.1 实验环境
4.2 数据集与预处理
4.3 实验结果及分析
4.3.1 实验结果
4.3.2 结果分析
4.4 本章小结
第5章 结论
参考文献
在学研究成果
致谢
【参考文献】:
期刊论文
[1]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[2]分段卷积神经网络在文本情感分析中的应用[J]. 杜昌顺,黄磊. 计算机工程与科学. 2017(01)
本文编号:3664283
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3664283.html