面向代价敏感多标记数据的特征选择研究
发布时间:2020-12-06 18:28
随着大数据时代的发展,数据量呈现爆发式增长,数据的形式复杂多样,数据的语义日益丰富,特别是多标记高维数据的广泛存在,传统的单标记分类将一个样本只归为某一个标记中,导致无法描述当一个样本属于多个标记的问题,需利用多标记分类来描述此类数据资源,对于多标记数据的分析和挖掘已成为机器学习和数据挖掘领域的研究热点之一。由于多标记高维数据的维数灾难问题严重影响多标记学习的分类性能。因此,针对多标记学习的特征选择研究显得尤为重要。当前对于多标记数据的特征选择研究大多是针对完备性数据,但在许多应用领域中连续型数值数据较多,且由于诊测成本和隐私保护等因素导致数据往往呈现出不完备性。另外,数据的获取往往需要花费代价,为解决上述问题,研究面向代价敏感多标记数据的特征选择模型与算法,下面简单概括本文的创新点:首先,针对多标记数据的不完备性,提出了一种面向多标记不完备数据的特征选择算法。该算法将邻域粗糙集模型应用于多标记不完备数据的特征选择中,根据容差邻域阈值求解多标记不完备数据的邻域粒度,并基于邻域粒度给出了度量多标记不完备数据的特征重要性准则,以此设计了多标记不完备数据的特征选择算法。该算法能够有效地处理多...
【文章来源】:江西农业大学江西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
单标记学习问题
随着互联网和物联网的迅速普及,数据量呈爆发式增长,如何对数据进行有效地分析和利用已发展成为大数据时代亟待解决的问题,而机器学习恰好顺应了大数据时代的迫切需求,且被广泛应用于许多实际生活领域,例如数据挖掘、计算机视觉、自然语言处理、天气预报、能源勘探、环境监测、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、商业营销、DNA 序列测序、语音和手写识别、战略游戏和机器人运用等领域,并取得巨大成就。常见的机器学习方法包括监督学习、无监督学习和强化学习这三种,其中,在实际应用中较为常用的方法是监督学习,其对应的训练数据是具有给定标记的。在传统的有监督学习框架中,每个样本的相关类别标记具有唯一性[1](如图 1.1 所示),此类问题被称为单标记学习问题。例如,在我们挑选西瓜的过程中,通过西瓜的“色泽”、“根蒂”和“敲声”可以判断西瓜是否为好瓜(如表 1.1 所示)。然而,随着数据规模、数据维度的快速增长以及数据标注结构的复杂度的增加,现实生活中存在的实例具有多义性的问题,即每个样本在一个特征向量下,可能同时隶属于多个类别标记(如图 1.2 所示),人们将这种多义性问题的学习框架称为多标记学习问题。例如,在为一张照片添加标签的的时候,照片中同时包括“天空”、“房屋”、“湖水”和“树木”(如图 1.3 所示)。
图 1.3 多标记示例图记学习问题通常被应用于描述复杂场景,例如,一篇文档可能同时属于“计算机”、“数学”和“生物”;在图像标注中,一幅图片可能同时标水”和“树”;在音乐情感分析中,一首歌曲可能同时被标注为“欢乐”激情”;在生物信息学中,每段基因可能同时具有多种功能,如“蛋白陈代谢”和“转录”等。随着多标记在文本分类[2-4]、图像视频自动标注[11-13]和生物分类[14-16]等领域的广泛应用,多标记学习受到越来越多研究成为机器学习、数据挖掘和模式识别等领域的研究热点之一。数学家 Pawlak 教授于 1982 年提出的粗糙集理论是一种用于处理不精相容知识的数学工具[17],近年来,该理论在机器学习和数据挖掘领域得用[18,19]。属性约简,又称特征选择,是粗糙集理论的核心内容之一,其分类能力不变的条件下,删除不相关或冗余特征。与单标记学习一样,面临着“维数灾难”的挑战。高维数据不仅影响算法的执行效率,也降分类性能,而特征降维技术是解决维数灾难的有效方法。目前,针对单征降维技术的研究较为广泛,而针对多标记数据的特征降维技术的研究此,基于多标记学习特征选择的研究[20-24]具有重要的理论和应用意义
【参考文献】:
期刊论文
[1]一种结合类别权重及多示例的多标记学习改进算法[J]. 杨小健,王杉杉,李荣雨. 小型微型计算机系统. 2017(04)
[2]基于局部子空间的多标记特征选择算法[J]. 刘景华,林梦雷,王晨曦,林耀进. 模式识别与人工智能. 2016(03)
[3]基于决策粗糙集的多标记情绪分类[J]. 张志飞,苗夺谦,张红云. 模式识别与人工智能. 2015(08)
[4]共享子空间的多标记学习方法[J]. 杨柳,邹珊,于剑,景丽萍. 计算机科学与探索. 2015(08)
[5]基于邻域粗糙集的多标记分类特征选择算法[J]. 段洁,胡清华,张灵均,钱宇华,李德玉. 计算机研究与发展. 2015(01)
[6]一类基于信息熵的多标签特征选择算法[J]. 张振海,李士宁,李志刚,陈昊. 计算机研究与发展. 2013(06)
[7]一种面向人脸识别的加权代价敏感局部保持投影[J]. 万建武,杨明,吉根林,陈银娟. 软件学报. 2013(05)
[8]广义邻域关系下不完备混合决策系统的约简[J]. 徐久成,张灵均,孙林,李双群. 计算机科学. 2013(04)
[9]基于信息熵的核属性增量式高效更新算法[J]. 钱文彬,杨炳儒,徐章艳,张长胜. 模式识别与人工智能. 2013(01)
[10]面向非完备决策表的正向近似特征选择加速算法[J]. 钱宇华,梁吉业,王锋. 计算机学报. 2011(03)
本文编号:2901838
【文章来源】:江西农业大学江西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
单标记学习问题
随着互联网和物联网的迅速普及,数据量呈爆发式增长,如何对数据进行有效地分析和利用已发展成为大数据时代亟待解决的问题,而机器学习恰好顺应了大数据时代的迫切需求,且被广泛应用于许多实际生活领域,例如数据挖掘、计算机视觉、自然语言处理、天气预报、能源勘探、环境监测、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、商业营销、DNA 序列测序、语音和手写识别、战略游戏和机器人运用等领域,并取得巨大成就。常见的机器学习方法包括监督学习、无监督学习和强化学习这三种,其中,在实际应用中较为常用的方法是监督学习,其对应的训练数据是具有给定标记的。在传统的有监督学习框架中,每个样本的相关类别标记具有唯一性[1](如图 1.1 所示),此类问题被称为单标记学习问题。例如,在我们挑选西瓜的过程中,通过西瓜的“色泽”、“根蒂”和“敲声”可以判断西瓜是否为好瓜(如表 1.1 所示)。然而,随着数据规模、数据维度的快速增长以及数据标注结构的复杂度的增加,现实生活中存在的实例具有多义性的问题,即每个样本在一个特征向量下,可能同时隶属于多个类别标记(如图 1.2 所示),人们将这种多义性问题的学习框架称为多标记学习问题。例如,在为一张照片添加标签的的时候,照片中同时包括“天空”、“房屋”、“湖水”和“树木”(如图 1.3 所示)。
图 1.3 多标记示例图记学习问题通常被应用于描述复杂场景,例如,一篇文档可能同时属于“计算机”、“数学”和“生物”;在图像标注中,一幅图片可能同时标水”和“树”;在音乐情感分析中,一首歌曲可能同时被标注为“欢乐”激情”;在生物信息学中,每段基因可能同时具有多种功能,如“蛋白陈代谢”和“转录”等。随着多标记在文本分类[2-4]、图像视频自动标注[11-13]和生物分类[14-16]等领域的广泛应用,多标记学习受到越来越多研究成为机器学习、数据挖掘和模式识别等领域的研究热点之一。数学家 Pawlak 教授于 1982 年提出的粗糙集理论是一种用于处理不精相容知识的数学工具[17],近年来,该理论在机器学习和数据挖掘领域得用[18,19]。属性约简,又称特征选择,是粗糙集理论的核心内容之一,其分类能力不变的条件下,删除不相关或冗余特征。与单标记学习一样,面临着“维数灾难”的挑战。高维数据不仅影响算法的执行效率,也降分类性能,而特征降维技术是解决维数灾难的有效方法。目前,针对单征降维技术的研究较为广泛,而针对多标记数据的特征降维技术的研究此,基于多标记学习特征选择的研究[20-24]具有重要的理论和应用意义
【参考文献】:
期刊论文
[1]一种结合类别权重及多示例的多标记学习改进算法[J]. 杨小健,王杉杉,李荣雨. 小型微型计算机系统. 2017(04)
[2]基于局部子空间的多标记特征选择算法[J]. 刘景华,林梦雷,王晨曦,林耀进. 模式识别与人工智能. 2016(03)
[3]基于决策粗糙集的多标记情绪分类[J]. 张志飞,苗夺谦,张红云. 模式识别与人工智能. 2015(08)
[4]共享子空间的多标记学习方法[J]. 杨柳,邹珊,于剑,景丽萍. 计算机科学与探索. 2015(08)
[5]基于邻域粗糙集的多标记分类特征选择算法[J]. 段洁,胡清华,张灵均,钱宇华,李德玉. 计算机研究与发展. 2015(01)
[6]一类基于信息熵的多标签特征选择算法[J]. 张振海,李士宁,李志刚,陈昊. 计算机研究与发展. 2013(06)
[7]一种面向人脸识别的加权代价敏感局部保持投影[J]. 万建武,杨明,吉根林,陈银娟. 软件学报. 2013(05)
[8]广义邻域关系下不完备混合决策系统的约简[J]. 徐久成,张灵均,孙林,李双群. 计算机科学. 2013(04)
[9]基于信息熵的核属性增量式高效更新算法[J]. 钱文彬,杨炳儒,徐章艳,张长胜. 模式识别与人工智能. 2013(01)
[10]面向非完备决策表的正向近似特征选择加速算法[J]. 钱宇华,梁吉业,王锋. 计算机学报. 2011(03)
本文编号:2901838
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2901838.html