基于fastText的新闻文本分类研究及在农业新闻中的应用
发布时间:2021-04-16 14:15
互联网的飞速发展使得数据大量且迅速地增长,其中大量数据是以文本形式存储的,文本分类作为最常见的文本挖掘技术对于在大量杂乱的文本数据中发现知识具有重要意义。目前文本分类的方法主要有基于语义规则的分类方法、基于传统机器学习的分类方法以及基于深度学习的分类方法三种方法。其中,fastText快速文本分类模型是最近提出的能够快速高效进行文本分类的浅层神经网络模型,它可以在取得和深度学习相当的分类效果的同时拥有比深度学习更低的训练成本,所以在工业界应用广泛。fastText通过n-gram进行特征增强来获取局部的词序信息,但是经过n-gram特征增强后会产生一些无意义的低频词,干扰文本分类的效果。同时,对于新闻文本的具体问题,新闻标题往往是一篇新闻的高度概括,在fastText模型中是将整篇文章的词向量进行累加取平均值作为一篇文章的向量表示,没有考虑到新闻标题在表示一篇文章时应占有更高的权重。所以,本文针对以上问题对fastText模型主要进行了“对重要词进行加权筛选”和“融合新闻标题”两种改进分别提出算法CF-fastText和算法Title-fastText,同时将这两种改进方法融合提出算法...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
CBOW和Skip-gram结构
本分类的基准是将句子用词袋模型(BOW)表示,然后训练一个比如逻辑回归或者支持向量机。但是,这些线性分类器在类和特其泛化性能减弱。常用解决这种问题的方法是分解为低秩矩阵或在神经网络中,参数可以通过隐藏层进行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分个只有一层隐藏层的简单的 fastText 结构,它将单词表示的平均,送入一个线性的分类器。这个结构与 CBOW 架构很相似,不像 CBOW 通过上下文的词来预测中间词而是预测标签,这个标类中预定义的类别。fastText 将单词序列作为输入,并且用 softm这些类别的概率分布。fastText 与 word2vec 类似,都是使用随机行模型训练。
图 2.3 Django 的 MTV 模型组织结构小结要对相关理论和技术进行了介绍,包括文本预处理、文本特征速文本分类方法、文本分类评价指标以及实现该文本分类系统的 D文本预处理技术主要包括分词及去停用词,文本特征提取介绍了以及分布式的词向量表示。之后介绍了 fastText 快速文本分类算法最后对 DjangoWeb 框架的基础知识和体系结构进行了简要说明。绍了全文的理论基础和技术框架,为后文的研究和系统实现提供了
本文编号:3141587
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
CBOW和Skip-gram结构
本分类的基准是将句子用词袋模型(BOW)表示,然后训练一个比如逻辑回归或者支持向量机。但是,这些线性分类器在类和特其泛化性能减弱。常用解决这种问题的方法是分解为低秩矩阵或在神经网络中,参数可以通过隐藏层进行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分个只有一层隐藏层的简单的 fastText 结构,它将单词表示的平均,送入一个线性的分类器。这个结构与 CBOW 架构很相似,不像 CBOW 通过上下文的词来预测中间词而是预测标签,这个标类中预定义的类别。fastText 将单词序列作为输入,并且用 softm这些类别的概率分布。fastText 与 word2vec 类似,都是使用随机行模型训练。
图 2.3 Django 的 MTV 模型组织结构小结要对相关理论和技术进行了介绍,包括文本预处理、文本特征速文本分类方法、文本分类评价指标以及实现该文本分类系统的 D文本预处理技术主要包括分词及去停用词,文本特征提取介绍了以及分布式的词向量表示。之后介绍了 fastText 快速文本分类算法最后对 DjangoWeb 框架的基础知识和体系结构进行了简要说明。绍了全文的理论基础和技术框架,为后文的研究和系统实现提供了
本文编号:3141587
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3141587.html
最近更新
教材专著