当前位置:主页 > 科技论文 > 自动化论文 >

基于决策函数的多标签分类研究

发布时间:2021-11-12 09:54
  近年来,随着计算机技术的迅猛发展和社会的日益信息化,日常生活中的交易数据呈爆炸式涌现.如何从海量数据中获取有用的信息并对其进行合理归类,是数据时代需要研究的一个至关重要的问题.多标签分类是指把一个实例分派到多个不同标签的一个集合,这个问题等价于寻找一个多值的决策函数,把每一个实例映射到二元类的一个向量.通常,用于多标签分类的算法有二元相关性方法和链分类器,当贝叶斯网络增广的朴素贝叶斯作为基础模型时,这两个方法可以诱导出一个多项式表示的决策函数.本文主要基于此决策函数对多标签分类进行深入研究,主要研究工作如下:首先,为了提高决策函数的分类质量,本文提出了一个新的特征权重的方法——概率特征权重.它把特征属性的正负类实例的频率比作为权重,此特征权重来源于数据本身,能够较好的适应于数据集的改变.由于概率特征权重只是出现在决策函数的条件概率估计中,它可以保证对决策函数的分类结果施加一个正影响.通过在多标签数据集上的实验结果表明,概率特征权重方法能够较好地提升决策函数的分类质量.此外,为了简化决策函数,减少决策函数的计算复杂度,本文提出了决策函数无关变量的判别定理,通过对无关变量的选择和消除来简化... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于决策函数的多标签分类研究


单标签分类图

分类图,分类图


图 1.1 单标签分类图 图 1.2 多标签分类图在多标签分类中,标签中的不平衡现象广泛存在,多标签不平衡问题也是问题中需要研究的一个重点内容.在传统的多标签分类算法中,算法对多分类能力要远远高于对少数类的分类能力,然而,在不平衡数据分类中,的是少数类的分类情况.举例如下:若一组数据集中一共有一百条实例,五条为同一个类,而另外五条属于另一个类,如果算法把所有数据都分成多算法的分类精度达到了百分之九十五,这对于正常的分类算法来说,分类于高的范畴,但是算法对少数类的识别率为零,所以,将此算法用于标签分类是不合理的.多标签不平衡现象在现实生活中也很常见,一个现象是现情况的预测问题[4].对当前的教育现状来说,学生在学校的学习生活情生常谈和饱受关注的问题,一些在学校表现不好,学习成绩差,违反学校学的学生个数要远远少于正常的学生,对影响学生的学习成绩,学校生活和心理素质等因素的数据集进行采集,非正常学生采集的数据自然要比正据少的多,因此,对学生在学校表现情况进行评估预测,就是解决一个多

示意图,预测变量,类变量,二元相关


标签分类问题是指把一个实例指派给一个标签集的子集,这个问题等价值的决策函数[20],即把每一个实例映射到一个二元类的向量.解决一个题就是把每一个实例1( , , )nx = x x映射到 h 个标签的一个子集,即1 1{y , , y },n hW=W ′ ′ W Y í y= i 是第i个属性的取值空间, ,i i iW ì R W = m<¥ .im 是第 i 个属性取值签集,iy 指第 i 个标签.通常多标签分类问题可以转化为一个多维的二元就是说,寻找一个h值决策函数 f 把含有n个预测变量的实例 x映射到向量1( , , ),hc = c c其中 { 1, 1} ,ic - + 即11 1: { 1, 1}( , , ) ( , , ),hnn hfx x c cW=W ′ ′W - + 1ic =+ 表示在预测标签集Y 中第 i 个标签是存在的, 1ic =- 表示在预第i个标签是不存在的.我们把分类预测变量1, ,nX X和二元类变量C变量.

【参考文献】:
博士论文
[1]贝叶斯网络应用基础研究[D]. 董立岩.吉林大学 2007

硕士论文
[1]基于卷积神经网络的多标签场景分类[D]. 陈智.山东大学 2015
[2]规范化标签传递法处理标签不平衡问题的研究[D]. 薛曼.大连理工大学 2013
[3]离散化算法研究与应用[D]. 王哲.大连理工大学 2009
[4]连续属性离散化方法研究[D]. 阙夏.合肥工业大学 2006



本文编号:3490674

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3490674.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ecd18***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com