基于深度学习混合模型的文本分类研究
本文关键词:基于深度学习混合模型的文本分类研究
更多相关文章: 文本分类 深度学习 稀疏自动编码器 深度置信网络 Softmax
【摘要】:互联网的飞速发展使得文本分类成为大数据时代下的一种关键技术。文本信息中包含着大量的有价值信息,如何有效的管理这些文本信息并且有效的获取有价值的信息成为信息科学面临的挑战。文本分类是文本信息处理当中的关键点,在文本信息处理中有着重要地位。目前深度学习已广泛应用与手写体识别、图像识别以及语音识别等各种领域,但是应用于文本分类方面的研究仍然比较少。本文充分利用了深度学习良好的学习特征能力,提出了一种基于深度学习的混合模型,并且设计出一种基于该混合模型的文本分类器。该混合模型使用了稀疏自动编码器和深度置信网络两种常见的深度学习模型进行混合。混合模型主要由三部分组成,前两层使用稀疏自动编码器来构造,中间使用一个三层的深度置信网络,最后用Softmax回归作为分类层。为了测试本文基于深度学习混合模型的分类器的分类性能,分别在英文数据集20Newsgroup和中文数据集复旦大学中文语料库上进行了相关实验。在英文文本分类实验中,使用基于深度学习混合模型的分类器进行分类,得到了比较高的分类正确率。为进一步验证其性能的优越性,与朴素贝叶斯分类器、KNN分类器、支持向量机分类器进行对比实验,基于深度学习混合模型的分类器的分类效果要好于朴素贝叶斯分类器、KNN分类器和支持向量机分类器的分类效果。在中文文本分类实验中,对复旦大学中文语料库进行了实验,得到很好的分类效果,并且讨论了不同的参数设置对分类正确率的影响。
【关键词】:文本分类 深度学习 稀疏自动编码器 深度置信网络 Softmax
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 中文摘要3-4
- Abstract4-8
- 第一章 绪论8-15
- 1.1 数据挖掘领域相关介绍8-10
- 1.1.1 数据挖掘的技术分类8-9
- 1.1.2 数据挖掘的挖掘过程9
- 1.1.3 数据挖掘的研究热点问题9-10
- 1.2 文本分类研究背景及意义10-11
- 1.3 文本分类的研究现状11-13
- 1.4 论文的主要工作及组织结构13-15
- 第二章 文本分类中的相关技术15-24
- 2.1 文本分类概述15-16
- 2.2 文本预处理16
- 2.3 文本表示16-17
- 2.4 文本特征选择17-19
- 2.5 文本分类算法19-22
- 2.5.1 朴素贝叶斯19-20
- 2.5.2 决策树20-21
- 2.5.3 KNN21
- 2.5.4 支持向量机21-22
- 2.6 本章小结22-24
- 第三章 深度学习24-33
- 3.1 深度学习简介24-27
- 3.1.1 深度学习基本思想25-26
- 3.1.2 深度学习的训练过程26-27
- 3.2 深度学习的常用模型27-28
- 3.2.1 自动编码器27
- 3.2.2 卷积神经网络27-28
- 3.3 受限玻尔兹曼机28-32
- 3.3.1 受限玻尔兹曼机原理28-30
- 3.3.2 受限玻尔兹曼机的能量模型30-31
- 3.3.3 受限玻尔兹曼机的训练算法31-32
- 3.4 本章小结32-33
- 第四章 基于深度学习混合模型的文本分类33-44
- 4.1 混合模型的设计33-34
- 4.2 文本分类器的设计34-43
- 4.2.1 文本预处理模块35-37
- 4.2.2 特征学习模块37-42
- 4.2.3 分类识别模块42-43
- 4.3 本章小结43-44
- 第五章 实验及结果分析44-50
- 5.1 分类的评价标准44
- 5.2 实验数据集44-45
- 5.3 实验的软硬件环境45
- 5.4 英文文本分类实验45-47
- 5.5 中文文本分类实验47-50
- 第六章 总结与展望50-52
- 6.1 研究工作总结50-51
- 6.2 展望51-52
- 参考文献52-54
- 在学期间的研究成果54-55
- 致谢55
【参考文献】
中国期刊全文数据库 前10条
1 杨春德;张磊;;基于自适应深度置信网络的图像分类方法[J];计算机工程与设计;2015年10期
2 陈翠平;;基于深度信念网络的文本分类算法[J];计算机系统应用;2015年02期
3 刘勘;袁蕴英;;基于自动编码器的短文本特征提取及聚类研究[J];北京大学学报(自然科学版);2015年02期
4 雷成;叶小勇;李小波;;深度学习技术及其在肿瘤分类中的应用[J];智能计算机与应用;2014年06期
5 曲建岭;杜辰飞;邸亚洲;高峰;郭超然;;深度自动编码器的研究与展望[J];计算机与现代化;2014年08期
6 张开旭;周昌乐;;基于自动编码器的中文词汇特征无监督学习[J];中文信息学报;2013年05期
7 戚孝铭;施亮;;基于模拟退火及蜂群算法的优化特征选择算法[J];计算机工程与设计;2013年08期
8 张培颖;王雷全;;基于语义距离的文本分类方法[J];计算机技术与发展;2013年01期
9 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期
10 郭亚维;刘晓霞;;文本分类中信息增益特征选择方法的研究[J];计算机工程与应用;2012年27期
中国重要会议论文全文数据库 前1条
1 陆璐;张旭东;赵莹;高隽;;基于卷积神经网络的车牌照字符识别研究[A];第十二届全国图象图形学学术会议论文集[C];2005年
中国硕士学位论文全文数据库 前3条
1 马冬梅;基于深度学习的图像检索研究[D];内蒙古大学;2014年
2 王海麟;通过信息几何方法挖掘玻尔兹曼机的不变性[D];天津大学;2014年
3 姜鹤;SVM文本分类中基于法向量的特征选择算法研究[D];上海交通大学;2010年
,本文编号:768478
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/768478.html