基于卷积神经网络的中文文本分类研究
发布时间:2022-03-09 12:34
互联网的快速发展,使得互联网上的数据呈指数级的增长,人类社会正迈入大数据时代;如何有效的存储、管理进而挖掘出数据中的价值,从而为人类社会服务,是当今学术界和工业界都极度重视的课题。文本数据作为信息的主要载体之一,相比于图像、视频等,在携带的信息量大致相同的情况下,占用的网络资源最少,传播更为方便、快捷,因此成为互联网上主要的信息传播载体。文本分类是文本数据管理、价值挖掘的最重要的部分,而传统分类方法模型表达能力较弱,已无法应对文本分类领域海量数据、多类别等问题的挑战,寻找新的文本表示与分类方法变得十分紧迫。本文采用深度学习中的卷积神经网络模型作为分类器,利用Word2vec模型提取文本特征,先将经过分词后的文本库中的每个词语映射到一个固定长度的向量,再遍历每篇文本,将文本中的词语逐一转换为向量,依次排列,得到文本的矩阵表示;文本库中的单个文本最大长度决定了最终的文本矩阵行数,不足的部分补零,最后将文本矩阵输入到卷积神经网络模型中;针对原始文本库中的词语数量多、单个文本包含词汇量较多,不利于后续分类处理的问题,本文采用LDA模型,先训练提取所有文本的潜在主题,再由潜在的主题得到与每个主题...
【文章来源】:华中科技大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 课题背景与研究意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 论文的结构安排
2 文本特征提取相关技术介绍
2.1 中文分词方法与常用工具
2.1.1 基于字符串匹配的分词方法
2.1.2 基于理解的分词方法
2.1.3 基于统计的分词方法
2.1.4 常用分词工具
2.2 传统的文本特征提取方法
2.2.1 One-hot模型
2.2.2 TF-IDF模型
2.2.3 LDA模型
2.3 分布式文本特征提取方法
2.4 本章小结
3 常用文本分类算法
3.1 支持向量机
3.1.1 支持向量机原理
3.1.2 支持向量机的优缺点
3.2 朴素贝叶斯
3.2.1 朴素贝叶斯算法原理
3.2.2 朴素贝叶斯算法的优缺点
3.3 随机森林
3.3.1 决策树
3.3.2 随机森林
3.3.3 随机森林的优缺点
3.4 本章小结
4 基于卷积神经网络的中文文本分类系统
4.1 卷积神经网络模型结构介绍
4.1.1 卷积神经网络输入层
4.1.2 卷积神经网络卷积层
4.1.3 卷积神经网络的池化层
4.1.4 卷积神经网络全连接层
4.2 卷积神经网络模型的训练方法
4.3 本章小结
5 实验过程与结果分析
5.1 实验环境
5.2 数据描述
5.3 文本分类性能评测指标
5.4 传统分类器实验结果
5.4.1 特征提取
5.4.2 分类结果
5.5 卷积神经网络实验结果
5.5.1 LDA提取主题相关单词
5.5.2 卷积神经网络分类结果
6 总结与展望
6.1 论文总结
6.2 工作展望
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]单词嵌入——自然语言的连续空间表示[J]. 陈恩红,邱思语,许畅,田飞,刘铁岩. 数据采集与处理. 2014(01)
[2]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[3]SVM及其在文本分类中的应用[J]. 罗玉华,左军,李岩. 科技信息. 2010(03)
[4]汉语文本自动分词算法的研究[J]. 何国斌,赵晶璐. 计算机工程与应用. 2010(03)
[5]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[6]文本的图表示初探[J]. 周昭涛,卜东波,程学旗. 中文信息学报. 2005(02)
[7]基于N-最短路径方法的中文词语粗分模型[J]. 张华平,刘群. 中文信息学报. 2002(05)
[8]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]文本分类关键技术及应用研究[D]. 凤丽洲.吉林大学 2015
[3]支持向量机算法及其应用研究[D]. 张国云.湖南大学 2006
硕士论文
[1]中文分词技术在搜索引擎中的研究与应用[D]. 魏光泽.青岛科技大学 2016
[2]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[3]基于卷积神经网络的句子分类算法[D]. 林荣华.浙江大学 2015
[4]随机森林在文本分类中的应用[D]. 贺捷.华南理工大学 2015
[5]基于朴素贝叶斯方法的中文文本分类研究[D]. 李丹.河北大学 2011
[6]基于神经网络的中文分词算法的研究[D]. 张晓淼.大连理工大学 2006
本文编号:3645694
【文章来源】:华中科技大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 课题背景与研究意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 论文的结构安排
2 文本特征提取相关技术介绍
2.1 中文分词方法与常用工具
2.1.1 基于字符串匹配的分词方法
2.1.2 基于理解的分词方法
2.1.3 基于统计的分词方法
2.1.4 常用分词工具
2.2 传统的文本特征提取方法
2.2.1 One-hot模型
2.2.2 TF-IDF模型
2.2.3 LDA模型
2.3 分布式文本特征提取方法
2.4 本章小结
3 常用文本分类算法
3.1 支持向量机
3.1.1 支持向量机原理
3.1.2 支持向量机的优缺点
3.2 朴素贝叶斯
3.2.1 朴素贝叶斯算法原理
3.2.2 朴素贝叶斯算法的优缺点
3.3 随机森林
3.3.1 决策树
3.3.2 随机森林
3.3.3 随机森林的优缺点
3.4 本章小结
4 基于卷积神经网络的中文文本分类系统
4.1 卷积神经网络模型结构介绍
4.1.1 卷积神经网络输入层
4.1.2 卷积神经网络卷积层
4.1.3 卷积神经网络的池化层
4.1.4 卷积神经网络全连接层
4.2 卷积神经网络模型的训练方法
4.3 本章小结
5 实验过程与结果分析
5.1 实验环境
5.2 数据描述
5.3 文本分类性能评测指标
5.4 传统分类器实验结果
5.4.1 特征提取
5.4.2 分类结果
5.5 卷积神经网络实验结果
5.5.1 LDA提取主题相关单词
5.5.2 卷积神经网络分类结果
6 总结与展望
6.1 论文总结
6.2 工作展望
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]单词嵌入——自然语言的连续空间表示[J]. 陈恩红,邱思语,许畅,田飞,刘铁岩. 数据采集与处理. 2014(01)
[2]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[3]SVM及其在文本分类中的应用[J]. 罗玉华,左军,李岩. 科技信息. 2010(03)
[4]汉语文本自动分词算法的研究[J]. 何国斌,赵晶璐. 计算机工程与应用. 2010(03)
[5]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[6]文本的图表示初探[J]. 周昭涛,卜东波,程学旗. 中文信息学报. 2005(02)
[7]基于N-最短路径方法的中文词语粗分模型[J]. 张华平,刘群. 中文信息学报. 2002(05)
[8]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]文本分类关键技术及应用研究[D]. 凤丽洲.吉林大学 2015
[3]支持向量机算法及其应用研究[D]. 张国云.湖南大学 2006
硕士论文
[1]中文分词技术在搜索引擎中的研究与应用[D]. 魏光泽.青岛科技大学 2016
[2]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[3]基于卷积神经网络的句子分类算法[D]. 林荣华.浙江大学 2015
[4]随机森林在文本分类中的应用[D]. 贺捷.华南理工大学 2015
[5]基于朴素贝叶斯方法的中文文本分类研究[D]. 李丹.河北大学 2011
[6]基于神经网络的中文分词算法的研究[D]. 张晓淼.大连理工大学 2006
本文编号:3645694
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3645694.html