当前位置:主页 > 科技论文 > 软件论文 >

面向非对称和多标签的文本分类技术研究

发布时间:2021-03-16 06:50
  如今快速发展的信息技术让人们可以快速地创建和分享信息,而人们获取信息的主要方式是电子形式的文件,在比较多样化和杂乱化的信息中快速准确地寻找到需要的信息将会变得更加困难。文本分类技术是对文档进行整理和分类的一项重要技术,但是随着自媒体的发展,文本概念迁移现象越来越频繁,传统的单标签已经不能准确地描述现实对象的动态变化,急需多标签分类技术准确客观地描述现实对象的多语义现象。文本分类中不仅存在着多标签问题,同时也伴随着非对称问题(即数据不均衡问题)的发生。对于数据不均衡问题,解决途径一般分为三种,主要是从算法、特征选择和数据3个层次上进行的,算法层次上的方法主要是基于现有的一些分类算法上进行改进;数据层次上的方法主要是利用重采样技术来改善数据的类别分布;特征选择层次上,一般是通过改进现有的特征选择算法或者提出新的特征选择算法来适应非对称的数据集。论文提出的方法PKM-undersampling算法主要是从数据层次上进行的,采用了下采样技术的思想,通过在多数类样本上进行聚类来减少其样本的数量,从而达到数据分布均衡的目的。而论文使用的聚类算法主要是在k-means算法上进行了优化,本文提出的算法... 

【文章来源】:南京邮电大学江苏省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

面向非对称和多标签的文本分类技术研究


文本分类的训练和分类过程

面向非对称和多标签的文本分类技术研究


神经元模型

面向非对称和多标签的文本分类技术研究


SMOTE算法假设训练集中的一个少数类样本数为T,计算出数据集中类别的不平衡比例,根据此比

【参考文献】:
期刊论文
[1]文本分类中信息增益特征选择方法的研究[J]. 郭亚维,刘晓霞.  计算机工程与应用. 2012(27)
[2]不均衡问题中的特征选择新算法:Im-IG[J]. 尤鸣宇,陈燕,李国正.  山东大学学报(工学版). 2010(05)
[3]不平衡类数据挖掘研究综述[J]. 翟云,杨炳儒,曲武.  计算机科学. 2010(10)
[4]一种基于随机游走模型的多标签分类算法[J]. 郑伟,王朝坤,刘璋,王建民.  计算机学报. 2010(08)

硕士论文
[1]基于不均衡数据集的文本分类算法研究[D]. 谢娜娜.重庆大学 2013
[2]面向不均衡数据集分类的W-SVM模型[D]. 刁翠霞.合肥工业大学 2012



本文编号:3085602

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3085602.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83d41***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com