改进的TF-IDF特征选择和短文本分类算法研究

发布时间:2021-09-04 19:59
  随着互联网技术的飞速发展,网络很快成为互联网用户获取信息、交流和学习的重要平台,同时该平台也产生了海量的文本数据,这些数据内容简短,上下文语义关联程度大,表达方式多样,但是蕴含大量的信息。如何处理这些短文本并从中获取有价值的信息,一直以来是人们所关心的问题。文本分类是指将文本信息归为一个或多个类型的过程,可以解决短文本杂乱无章的问题、提高信息利用率以及帮助用户缩小信息检索范围。考虑到这些非结构化文本数据的特点,传统的特征表示方法和分类模型对其直接进行处理结果精度有限。针对这种情况,本文主要从两个方面着手改进:文本特征选择方法和文本分类算法。一、鉴于短文本数据集的非均衡性,传统特征选择方法的不适用性,本文首先把类频方差和卡方检验引入词频-逆文档频率算法中,形成两个单模型特征选择算法,将两个单模型融合再引入词向量训练工具Word2vec形成的算法记为WoTFI,用于特征获取,该模型既考虑到文本数据的语义信息,又兼顾到特征词在类内和类间分布的差异。和不同的特征表示模型对比,WoTFI不仅能够灵活实现特征词权重的分配,也对分类结果产生了积极影响。二、对传统分类算法做了改进,采用双向长短时记忆网... 

【文章来源】:安徽大学安徽省 211工程院校

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

改进的TF-IDF特征选择和短文本分类算法研究


本文采用的短文本分类系统蓝图

矩阵图,文本数据,矩阵图,特征向量


第二章短文本分类相关技术简介10稀疏编码,虽然它编码效率高,但是获得的向量中只有有效位为1,无效的位置全部都为0,效率表达非常低,便可能不适用于某些应用。语料库中的词汇表一般都非常大,常达到百万级别,结果就是一个词却用百万级别的维度来表示,但是在实际实验时,带来的是维度爆炸的结果。总之one-hot编码效率高,但是维度大、特征稀疏、向量之间没有关联性。(3)VSM向量空间模型该模型是由Salton提出的,VSM作为信息检索的传统模型,将一个文档转化为空间向量,特征词个数等于向量的维数。假设文档中特征个数为m,选择出n个特征词,由n个特征词组成的词序列c=(1,2,…,)。文档中特征向量是一个长度为n,索引1,2,…,,权值为1,2,…,,剩余位置取值0的向量。文本数据集中全部特征向量形成的矩阵如图2.1所示:图2.1文本数据集中全部特征向量形成的矩阵图一般来说,文本集合的词汇量很大,VSM获取的词向量维度高,特征稀疏,使得计算复杂。且由于VSM无法捕获特征词之间语义关系,便使得两篇语义相近的文档因为没有包含相同的特征词,计算得出文本的相似度为0,导致文本分类存在误差。图2.2特征词与权重的对应关系

矩阵图,特征词,权重,向量


第二章短文本分类相关技术简介10稀疏编码,虽然它编码效率高,但是获得的向量中只有有效位为1,无效的位置全部都为0,效率表达非常低,便可能不适用于某些应用。语料库中的词汇表一般都非常大,常达到百万级别,结果就是一个词却用百万级别的维度来表示,但是在实际实验时,带来的是维度爆炸的结果。总之one-hot编码效率高,但是维度大、特征稀疏、向量之间没有关联性。(3)VSM向量空间模型该模型是由Salton提出的,VSM作为信息检索的传统模型,将一个文档转化为空间向量,特征词个数等于向量的维数。假设文档中特征个数为m,选择出n个特征词,由n个特征词组成的词序列c=(1,2,…,)。文档中特征向量是一个长度为n,索引1,2,…,,权值为1,2,…,,剩余位置取值0的向量。文本数据集中全部特征向量形成的矩阵如图2.1所示:图2.1文本数据集中全部特征向量形成的矩阵图一般来说,文本集合的词汇量很大,VSM获取的词向量维度高,特征稀疏,使得计算复杂。且由于VSM无法捕获特征词之间语义关系,便使得两篇语义相近的文档因为没有包含相同的特征词,计算得出文本的相似度为0,导致文本分类存在误差。图2.2特征词与权重的对应关系

【参考文献】:
期刊论文
[1]基于词袋模型和TF-IDF的短文本分类研究[J]. 黄春梅,王松磊.  软件工程. 2020(03)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖.  网信军民融合. 2019(09)
[3]基于类别特征扩展的短文本分类方法研究[J]. 邵云飞,刘东苏.  数据分析与知识发现. 2019(09)
[4]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚.  小型微型计算机系统. 2019(05)
[5]面向短文本分类的特征提取与算法研究[J]. 刘晓鹏,杨嘉佳,卢凯,田昌海,唐球.  信息技术与网络安全. 2019(05)
[6]面向Twitter情感分析的文本预处理方法研究[J]. 王永昌,朱立谷.  中国传媒大学学报(自然科学版). 2019(02)
[7]基于改进K最近邻算法的中文文本分类[J]. 黄超,陈军华.  上海师范大学学报(自然科学版). 2019(01)
[8]字符级卷积神经网络短文本分类算法[J]. 刘敬学,孟凡荣,周勇,刘兵.  计算机工程与应用. 2019(05)
[9]深度学习国内研究综述[J]. 樊雅琴,王炳皓,王伟,唐烨伟.  中国远程教育. 2015(06)
[10]论浅层学习与深度学习[J]. 叶晓芸,秦鉴.  软件导刊. 2006(02)

博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]支持向量机分类方法及其在文本分类中的应用研究[D]. 赵晖.大连理工大学 2006

硕士论文
[1]基于机器学习的中文文本分类算法的研究与实现[D]. 朱梦.北京邮电大学 2019
[2]基于word2vec和卷积神经网络的文本分类研究[D]. 李林.西南大学 2018



本文编号:3383915

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3383915.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户73c46***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com