当前位置:主页 > 科技论文 > 自动化论文 >

基于KNN的多标签分类算法研究

发布时间:2019-08-14 11:51
【摘要】:分类是将给定的数据划分到预定义的数据类中的过程,在数据挖掘和机器学习中是非常重要的一个学科分支并有着广泛的应用和研究。根据数据属于单个类还是多个类,分类分为单标签分类和多标签分类,由于多标签能更加真实的表达现实世界中的存在,其应用相对单标签而言更加广泛。目前多标签分类比较多的应用在文本分类,生物信息分类,场景分类,图像自动标注,视频剪辑等众多领域。虽然多标签应用广泛,但由于多标签内在的复杂性即标签之间存在相关性和多标签数据表达的复杂性以及输出空间的指数性,仍然需要对现有的理论和算法有进一步的研究和整合,以使多标签分类算法有进一步的改善。1、相关理论分析。首先简要介绍了单标签的相关理论;然后对多标签分类的相关理论和方法进行了详尽的阐述和分析。2、基于MLKNN(Multi-Label K-Nearest Neighbor,多标签k邻近算法)。KNN(K-Nearest Neighbor,k邻近)算法是一种简单但高效的聚类算法,有着广泛的应用,在多标签分类中也得到了一定程度的应用。在分析多标签分类算法MLKNN存在缺陷和不足的基础上,本文提出一种改进的MLKNN算法。对于每一个输入数据,利用KNN算法得出输入数据的k邻域进而求得每个数据中每个标签的先验概率和后验概率,然后得出每一个标签在数据中的最大概率。将每个数据的各个标签概率放到数据的特征向量中并以此来表示局部的标签相关性,再用带有标签概率的数据特征训练分类模型。对比实验结果验证了所提算法具有较好的多标签分类效果。3、多实例数据表示分类方法。现存的很多分类方法都只是将数据样本表示为一个实例训练分类模型进而得出未分类数据的标签,没有利用数据本身所包含的丰富的信息,鉴于此在KNN的框架下,本文提出一种基于多实例数据表示的多标签分类方法。该算法首先对于每一个输入数据,利用KNN算法得到该输入数据的k邻域,对于每一个标签,k邻域中包含该标签的所有数据的算术平均值作为对应标签的原型向量。将输入数据与该数据对应的每一个原型向量的差值作为对应标签的实例,这样原始数据将有多个实例表示,从而得到新的训练集数据。用新的训练集数据训练分类模型。对比实验结果证明了所提算法的有效性。
【图文】:

标签,图像分类,相关性


互影响;在文本分类中,一篇关于‘贸易’的文章不太可能与‘娱乐’标签有关;对于音乐分类来说,,一首属于‘励志’的歌曲就不太可能包含‘消极’因素;在图像自动标注中,对于图2.1中的两幅图,两者在颜色上是相似的,仅凭颜色是很难正确预测‘fish’和‘ocean’这两个标签。但是,若图2.1(a)有‘fish’这个标签的话,那么它同时包含‘ocean’标签的概率就很高。同样对于图2.1(b),若该图含有标签‘grass’,那么该图含有标签‘sky’的概率就很高。(a) ‘fish’‘ocean’‘blue’ (b) ‘sky’‘grass’‘blue’图2.1 标签相关性在图像分类中的作用标签相关性按照作用范围可以划分为全局相关性和局部相关性。全局相关性是指标签之间的相关性为所有数据共享。这种标签相关性在特定条件下是有用的,比如在图像标注领域,如果图像主要是关于海洋的如图2.1(a),这时标签‘fish’和‘ocean’之间的相关性可以为所有数据共享;在文本分类中,若文本都是关于国际商业的,那么‘国际贸易’和‘汇率’之间的相关性就可以为所有文本共享。但在现实中

分类结构,聚类,训练集,中心算法


ly 。图4.1 两层分类结构首先,把每一个包看成是一个原子,使用 k -中心算法将训练集聚类为没有交集的M个分组。这里使用豪斯多夫距离(Hausdorff distance) 来测量两个包之间的距离。具体来说是给定两个包 和1 2 1{ , ,..., }nA a a a1 2,2{ , ..., }nB b b bmaxmin ,max a ba b,两个包的豪斯多夫距离定义为:H ( A, B ) max{ min }(4.3)A B B A b a b a a b 测量两个实例之间的距离,这里使用欧几里得距离。聚类处理后,训练集被分为M 个分组,每个分组的中心是jC ,定义为:argmin ( , )jjjA GB GC H A B(4.4)因为聚类能帮助发现数据集潜在的结构,每一个分组的中心相当于对不同实例包的分布信息进行了编码。使用这些包的中心
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP181

【参考文献】

相关期刊论文 前4条

1 王莉莉;付忠良;;基于标签相关性的多标签分类AdaBoost算法[J];四川大学学报(工程科学版);2016年05期

2 刘端阳;邱卫杰;;基于加权SVM主动学习的多标签分类[J];计算机工程;2011年08期

3 刘端阳;邱卫杰;;基于SVM期望间隔的多标签分类的主动学习[J];计算机科学;2011年04期

4 郑东飞;石冰;;文本分类的归纳学习算法和描述[J];计算机工程与设计;2006年04期



本文编号:2526556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2526556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2873***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com