基于TF-IDF的FastText文本分类算法研究

发布时间:2021-08-14 01:48
  随着移动智能终端的蓬勃发展,我国已经迈入全民互联网时代。网民数量与日俱增,同时新闻、电子书等中文文本数据也在大规模增长。如何精确地将文本数据进行自动分类,成为了自然语言处理领域的热点问题。将中文文本数据进行自动分类,对信息管理和文本挖掘等方向的研究也有着极其重要的意义。传统的基于机器学习的文本分类算法一般使用TF-IDF算法来提取文本中的特征,但是这种方式会忽略词在文本中的其他特征以及词与词之间的联系,使最后提取的特征并不是很精确,从而导致分类效果不佳。所以现在自然语言处理领域中都会使用深度学习去处理文本分类问题,而基于深度学习的文本分类方法虽然在分类效果占有优势,但随着隐层的增加,算法的计算量也在不断增大,这样会消耗大量的计算资源以及时间。FastText文本分类算法的出现完善的解决了上述中的问题,这种文本分类算法与其他分类算法相比在保证分类准确性的同时还降低了时间开销,唯一不足的地方是FastText在输入层并没有对输入数据进行特征提取,会对算法的分类效果有一定的影响。因此本文主要研究并改进了 TF-IDF特征提取算法和FastText文本分类算法。主要研究内容如下:(1)研究并改... 

【文章来源】:扬州大学江苏省

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于TF-IDF的FastText文本分类算法研究


图1-1中国网民规模和互联网普及率??由于我国当前的互联网用户规模正在不断扩大,互联网中信息传播的主要媒介一文本??

示意图,示例,超平面


,该超平面的公式如下所示。??f{x)?=?wTx?+?b?=?0n维法向量,主要决定超平面的方向,6为偏置项,决定超平面与原可以满足公式(2-14)的超平面有很多,所以如何在众多符合条件的超超平面,成为了解决问题的关键。如图2-3所示,是一个最合适的超类别的数据集£>进行分类后的示意图,可以将这个超平面设为〇?,将训练数据集D精准分类,则训练数据集合D将满足如公式(2-15)所|w^?+?fe>+l,yi?=?+lIw1?x?+?b?<?—l,yi?=?—1??数据的类别标签,则可以得出超平面的表达式为sigi^v^x?+?Z))。若据能够满足公式(2-15)的等式条件,则这些数据点是离超平面最近的称为“支持向量”,其中,分别在超平面两边的“支持向量”的距离就的本质就是寻找一组最优参数(wj),这组参数可以使间隔最大化。??

循环神经网络,模型结构


一个对于循环神经网络的理解是,它会有一个记忆单元,这个记忆单元可以记住所有经过??计算的信息。根据这个观点,循环神经网络可以使用之前的任意计算信息,但是在实际中,??这种观点是不对的,它只能使用有限的信息。图2-4就是一个典型的循环神经网络。??6?°r-7?°,??A?t?t??^?V?V\?V??t?^?f?w?f?w?f?w??u?u?u?u??x?x, ̄,?x,?x,u??图2-4循环神经网络模型结构??图2-4展示的是一个循环神经网络展开后的模型结构。通过展开,可以得到模型的具??体执行过程。例如,如果某一输入数据是一个有5个词的句子,那么这个网络就会展开为??5层的神经网络,一层对应一个词。其中,循环神经网络具体的计算过程如下所示:??(1


本文编号:3341520

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3341520.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5bfe1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com