当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络的互联网短文分类方法研究

发布时间:2018-02-15 05:43

  本文关键词: 互联网短文 文本分类 深度学习 卷积神经网络 出处:《中原工学院》2017年硕士论文 论文类型:学位论文


【摘要】:随着互联网的快速发展,以微信、QQ、贴吧、博客、微博等为主要代表的新型社交媒介的使用,使人类活动已经离不开虚拟世界网络环境。互联网短文作为这些社交媒介产生数据的主要表现形式,如何从其中获取有效信息且掌控其信息热点是自然语言处理研究的重点内容。而文本分类技术作为信息获取的主要方式之一,在文本信息处理中有着重要的地位。在过去几年中,深度学习在图像处理、语音识别方面取得了很好效果,但在文本信息处理方面应用较少。因此,本文以互联网短文分类为应用背景,使用深度学习的卷积神经网络方法进行了分类研究。具体研究内容如下:(1)针对中文互联网短文特点,提出了一种基于卷积神经网络的互联网短文分类方法,该方法由数据预处理、特征处理、分类识别等模块组成。首先在数据预处理模块中,本文对分词、去噪声进行了优化,并使用Word2vec词向量和TF-IDF值构造文本特征矩阵。接着在特征处理模块中,使用了不同池化的不同类型的卷积神经网络处理文本低级特征。最后在分类识别模块中,使用softmax函数进行了文本分类识别操作。通过实验表明,使用Word2vec词向量和TF-IDF值末尾叠加方式构造文本特征矩阵,在最大池化下的动态卷积神经网络对该矩阵进行处理,可以得到比较好的互联网短文分类效果。(2)使用上述卷积神经网络的分类方法与KNN、SVM、DBN等文本分类方法进行互联网短文的两级分类实验。在建立一个有效的类别体系之后,抓取整理符合实验要求的数据。在相同的数据条件下,通过互联网短文本的两级分类实验,得出了本文的卷积神经网络的分类方法能够有效性的进行互联短文分类,相比其他方法分类效果更加稳定性。
[Abstract]:With the rapid development of the Internet, such as WeChat, QQ, Post Bar, blogs, social media use the new micro-blog as the main representative, so that human activities have cannot do without the virtual world of network environment. The Internet as social media to produce these essays mainly in the form of data, how to get useful information and control the information focus is the focus of the content Natural Language Processing research from them. One of the main ways of text classification technology as access to information, plays an important role in text information processing. In the past few years, deep learning in image processing, speech recognition and achieved good results, but less in text information processing applications. Therefore, in this paper the Internet text classification as the application background, convolutional neural network method using deep learning are discussed. The specific contents are as follows: (1) according to the Chinese Internet The essay features, presents a short Internet classification method based on convolutional neural network, the method consists of data preprocessing, feature, classification and identification module. Firstly, in the data preprocessing module, based on word segmentation, noise is optimized, and the use of Word2vec vector and TF-IDF value to construct the text feature matrix. Then the characteristics of the processing module, the use of different pools of different types of convolutional neural network to process the text of low-level features in classification and identification module. Finally, the text classification operation using the softmax function. The experimental results show that the end of overlay method to construct the text feature matrix using Word2vec vector and TF-IDF value, the dynamic convolution neural network the maximum pool under the matrix, can get a better Internet text classification. (2) using the convolution neural network classification Methods with KNN, SVM, DBN and other Internet short text classification methods two classification experiment. After the establishment of an effective classification system, grasping finishing meet the test requirements of the data. The data in the same conditions, through the Internet short text two classification experiment, the classification method of convolutional neural network in this paper the Internet can verify the validity of the text classification, compared with other methods of classification effect is more stable.

【学位授予单位】:中原工学院
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP183

【参考文献】

相关期刊论文 前10条

1 贺鸣;孙建军;成颖;;基于朴素贝叶斯的文本分类研究综述[J];情报科学;2016年07期

2 刘红光;马双刚;刘桂锋;;基于降噪自动编码器的中文新闻文本分类方法研究[J];现代图书情报技术;2016年06期

3 邓俊锋;张晓龙;;基于自动编码器组合的深度学习优化方法[J];计算机应用;2016年03期

4 陈之彦;李晓杰;朱淑华;付丹龙;邢诒海;;基于Hash结构词典的双向最大匹配分词法[J];计算机科学;2015年S2期

5 黄浩军;王胜清;;一种基于维基百科的文本表示方法[J];计算机工程与应用;2015年14期

6 马海兵;毕久阳;郭新顺;;文本分类方法在网络舆情分析系统中的应用研究[J];情报科学;2015年05期

7 陈翠平;;基于深度信念网络的文本分类算法[J];计算机系统应用;2015年02期

8 秦胜君;卢志平;;稀疏自动编码器在文本分类中的应用研究[J];科学技术与工程;2013年31期

9 戚孝铭;施亮;;基于模拟退火及蜂群算法的优化特征选择算法[J];计算机工程与设计;2013年08期

10 莫建文;郑阳;首照宇;张顺岚;;改进的基于词典的中文分词方法[J];计算机工程与设计;2013年05期

相关硕士学位论文 前1条

1 江斌;微博自动分类方法研究及应用[D];哈尔滨工业大学;2012年



本文编号:1512563

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1512563.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e64a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com