改进的TF-IDF特征选择和短文本分类算法研究

发布时间：2021-09-04 19:59

　　随着互联网技术的飞速发展,网络很快成为互联网用户获取信息、交流和学习的重要平台,同时该平台也产生了海量的文本数据,这些数据内容简短,上下文语义关联程度大,表达方式多样,但是蕴含大量的信息。如何处理这些短文本并从中获取有价值的信息,一直以来是人们所关心的问题。文本分类是指将文本信息归为一个或多个类型的过程,可以解决短文本杂乱无章的问题、提高信息利用率以及帮助用户缩小信息检索范围。考虑到这些非结构化文本数据的特点,传统的特征表示方法和分类模型对其直接进行处理结果精度有限。针对这种情况,本文主要从两个方面着手改进:文本特征选择方法和文本分类算法。一、鉴于短文本数据集的非均衡性,传统特征选择方法的不适用性,本文首先把类频方差和卡方检验引入词频-逆文档频率算法中,形成两个单模型特征选择算法,将两个单模型融合再引入词向量训练工具Word2vec形成的算法记为WoTFI,用于特征获取,该模型既考虑到文本数据的语义信息,又兼顾到特征词在类内和类间分布的差异。和不同的特征表示模型对比,WoTFI不仅能够灵活实现特征词权重的分配,也对分类结果产生了积极影响。二、对传统分类算法做了改进,采用双向长短时记忆网...

【文章来源】：安徽大学安徽省 211工程院校

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

本文采用的短文本分类系统蓝图

矩阵图,文本数据,矩阵图,特征向量

矩阵图,特征词,权重,向量

第二章短文本分类相关技术简介10稀疏编码，虽然它编码效率高，但是获得的向量中只有有效位为1，无效的位置全部都为0，效率表达非常低，便可能不适用于某些应用。语料库中的词汇表一般都非常大，常达到百万级别，结果就是一个词却用百万级别的维度来表示，但是在实际实验时，带来的是维度爆炸的结果。总之one-hot编码效率高，但是维度大、特征稀疏、向量之间没有关联性。（3）VSM向量空间模型该模型是由Salton提出的，VSM作为信息检索的传统模型，将一个文档转化为空间向量，特征词个数等于向量的维数。假设文档中特征个数为m，选择出n个特征词，由n个特征词组成的词序列c=(1，2，…，)。文档中特征向量是一个长度为n，索引1，2，…，，权值为1，2，…，，剩余位置取值0的向量。文本数据集中全部特征向量形成的矩阵如图2.1所示：图2.1文本数据集中全部特征向量形成的矩阵图一般来说，文本集合的词汇量很大，VSM获取的词向量维度高，特征稀疏，使得计算复杂。且由于VSM无法捕获特征词之间语义关系，便使得两篇语义相近的文档因为没有包含相同的特征词，计算得出文本的相似度为0，导致文本分类存在误差。图2.2特征词与权重的对应关系

【参考文献】：
期刊论文
[1]基于词袋模型和TF-IDF的短文本分类研究[J]. 黄春梅,王松磊.  软件工程. 2020(03)
[2]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖.  网信军民融合. 2019(09)
[3]基于类别特征扩展的短文本分类方法研究[J]. 邵云飞,刘东苏.  数据分析与知识发现. 2019(09)
[4]基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J]. 王根生,黄学坚.  小型微型计算机系统. 2019(05)
[5]面向短文本分类的特征提取与算法研究[J]. 刘晓鹏,杨嘉佳,卢凯,田昌海,唐球.  信息技术与网络安全. 2019(05)
[6]面向Twitter情感分析的文本预处理方法研究[J]. 王永昌,朱立谷.  中国传媒大学学报(自然科学版). 2019(02)
[7]基于改进K最近邻算法的中文文本分类[J]. 黄超,陈军华.  上海师范大学学报(自然科学版). 2019(01)
[8]字符级卷积神经网络短文本分类算法[J]. 刘敬学,孟凡荣,周勇,刘兵.  计算机工程与应用. 2019(05)
[9]深度学习国内研究综述[J]. 樊雅琴,王炳皓,王伟,唐烨伟.  中国远程教育. 2015(06)
[10]论浅层学习与深度学习[J]. 叶晓芸,秦鉴.  软件导刊. 2006(02)

博士论文
[1]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
[2]支持向量机分类方法及其在文本分类中的应用研究[D]. 赵晖.大连理工大学 2006

硕士论文
[1]基于机器学习的中文文本分类算法的研究与实现[D]. 朱梦.北京邮电大学 2019
[2]基于word2vec和卷积神经网络的文本分类研究[D]. 李林.西南大学 2018

本文编号：3383915

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3383915.html

上一篇：用于手术导航的医学影像多层次交互可视化研究
下一篇：基于多模态的印尼语新闻文本分类

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|