当前位置:主页 > 科技论文 > 自动化论文 >

文本分类中文本表示模型与深度学习算法研究

发布时间:2020-08-01 15:03
【摘要】:随着互联网的飞速发展,以网络为载体的文本信息也呈现出爆炸式增长的趋势。这些海量数据依靠人工进行管理和分类会不仅会耗费大量人力和时间,同时也难以实现。所以,如何高效地组织和管理这些文本信息是自然语言处理领域的一大研究热点,这也促进了自动文本分类技术的长足发展。目前,在文本挖掘、信息过滤与检索等领域,自动文本分类技术已经得到了广泛的应用。自动文本分类是一个涉及到机器学习算法、优化理论以及自然语言处理等多个领域知识的技术。因此,许多因素会影响到自动文本分类的性能,例如:文本的预处理、文本表示模型的选择、特征降维算法、文本分类器的设计等。在众多的影响因素中,文本表示模型以及文本分类器的设计是自动文本分类领域的两大研究热点。本文首先讨论了文本分类的研究背景和意义,分析国内外研究动态和热点,阐明了文本分类各个流程的具体实现。在此基础上,本文主要在文本表示模型以及深度学习在文本分类中的应用两方面展开深入研究,并取得如下成果:(1)提出了一种基于神经网络语言模型的特征聚类算法:NNLM-FC。针对传统向量空间模型中词向量语义缺失、维度过高以及特征集合中存在大量同义词和近义词的问题,利用神经网络语言模型将特征词转化为低维的语义向量,使用K-means聚类算法将语义相似的特征词进行聚类,利用卡方统计算法计算每个特征词的卡方统计量,选择聚类簇中卡方统计量大的特征词用于文本表示,最后得到了基于神经网络语言模型的特征聚类算法(NNLM-FC)。在复旦大学语料库和网络爬虫数据集上使用朴素贝叶斯、支持向量机和K-近邻分类器,使用分类结果的正确率、_1F值作为度量标准,与常见的特征选择算法进行了全面的对比。实验结果证明本文提出的算法不仅能够有效的降低向量空间的维度,而且能提高文本分类的性能。(2)提出一种基于加权词向量的深度学习文本分类模型。针对传统深度学习模型不能很好区分词向量重要程度以及CNN模型丢弃了大量有用特征且不适合处理序列化文本的问题,首先提出一种新的特征权重计算方法(TDC),利用该算法对词向量进行加权处理,同时去除那些重要程度低的特征词,从而减小了深度学习输入矩阵的维度。接下来将CNN模型与LSTM模型结合起来,利用CNN模型提取文本中丰富的特征,结合LSTM模型处理序列数据的优势,使用加权后的词向量作为输入,最终得到了基于加权词向量的深度学习模型:W-CNN-LSTM。通过在Stanford Sentiment Treebank和Movie Reviews数据集上的实验证明了W-CNN-LSTM模型的分类性能优于传统的深度学习模型。
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1
【图文】:

流程图,文本分类,流程图,文本


的文本归类到已知的类别中[27]。自动文本分类的具体定义如下:给定一组类别集合 { }1 2=c , c ,...,cCC ,一组文本集合 { }1 2= , ,...,DD d d d ,其中类集合中元素的数量用 C 表示,文本集合元素的数量用 D 表示。我们希望得到一个如2-1 所示的分类模型。该模型可以实现从文本集合 D 到类别集合 C 的映射, :D →C 。事实上,机器学习的本质就是利用已经标记好的文本训练集,通过训练类器最终得到一个性能最好的映射模型 。通常我们用文本id 表示分类模型 的入,用类别ic 表示分类模型 的输出。图 2-1 自动文本分类的映射模型自动文本分类技术涉及多项流程,其主要包括文本预处理、维度约减、文本表模型、文本分类器分类等[28],如图 2-2 所示。

向量空间模型,构造过程


而且能够使文本信息很方便地被计算机所处理。下面简要介绍几种常见的表示模型:向量空间模型(Vector Space Model,VSM)、布尔模型(Boolean Model,)和概率模型(Probabilistic Model,PM)。向量空间模型:20 世纪 70 年代,哈佛大学的 Wong 和 Salton 等人提出了向量空间。向量空间模型的主要思想就是把文本中的信息转化成为计算机能够处理的特征中的矢量。但是我们都知道,不同的特征在文本中的重要程度也不一样,所以,对特征词的重要性加以区分,我们在实际使用向量空间模型时一般会对特征词赋定的权重,特征词的重要程度越高该词的权重也就越大。在使用向量空间模型时,我们会构建一个向量空间,该向量空间可以将文本集合每个文本都表示为一组由特征词构建而成的 n 维向量。向量空间模型的构造过程 2-3 所示。其中kd 表示第k 个文本,jt表示第j个特征,kjw表示第k 个文本中特j的权重。t,t,…,t…t

最优分割,超平面


图 2-4 最优分割超平面待分类的数据集存在线性可分和线性不可分两种设训练集中的样本ix 属于类别 { 1, 1}iy ∈ + 。我们b的线性判别函数,使得样本数据尽可能被正确划),通常称该分类面为分离超平面。w x + b=0-20)表示的超平面有无数多个,上文我们已经提最优的超平面。实际上,最优超平面由支持向量离最近的样本点。因此,在实际使用支持向量机得到最优超平面,从而得到了最优的分类器。最。21min2 w

【参考文献】

相关期刊论文 前10条

1 熊富林;邓怡豪;唐晓晟;;Word2vec的核心架构及其应用[J];南京师范大学学报(工程技术版);2015年01期

2 冀俊忠;吴金源;吴晨生;杜芳华;;基于类别加权和方差统计的特征选择方法[J];北京工业大学学报;2014年10期

3 王光;邱云飞;史庆伟;;集合CHI与IG的特征选择方法[J];计算机应用研究;2012年07期

4 李明涛;罗军勇;尹美娟;路林;;结合词义的文本特征词权重计算方法[J];计算机应用;2012年05期

5 王祖辉;姜维;;引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J];计算机工程与应用;2012年16期

6 张保富;施化吉;马素琴;;基于TFIDF文本特征加权方法的改进研究[J];计算机应用与软件;2011年02期

7 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期

8 张文良;黄亚楼;倪维健;;一种基于聚类的文本特征选择方法[J];计算机应用;2007年01期

9 张庆国,张宏伟,张君玉;一种基于k最近邻的快速文本分类方法[J];中国科学院研究生院学报;2005年05期

10 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期

相关博士学位论文 前1条

1 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年

相关硕士学位论文 前10条

1 王振;基于机器学习的文本分类研究与实现[D];南京邮电大学;2018年

2 张闯;基于深度学习的知乎标题的多标签文本分类[D];北京交通大学;2018年

3 张伦干;多项式朴素贝叶斯文本分类算法改进研究[D];中国地质大学;2018年

4 韩众和;基于卷积神经网络的短文本分类研究[D];中国矿业大学;2018年

5 文永;社交媒体短文本分类方法研究[D];电子科技大学;2018年

6 李林;基于word2vec和卷积神经网络的文本分类研究[D];西南大学;2018年

7 杨开平;基于语义相似度的中文文本聚类算法研究[D];电子科技大学;2018年

8 袁松岭;基于深度学习的多场景短文本分类的研究与应用[D];电子科技大学;2018年

9 施瑞朗;中文文本分类中特征选择算法的研究与改进[D];杭州电子科技大学;2018年

10 徐蔚;基于深度学习的中文新闻文本分类的研究[D];中南民族大学;2018年



本文编号:2777621

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2777621.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c5a38***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com