多标记特征选择及其类属属性获取算法

发布时间:2021-04-11 21:27
  近年来,大数据技术以及人工智能技术得到了高速的发展,同时也推动了多标记学习的发展,多标记学习逐渐被诸多学者和专家列入重点的研究课题并在这方面取得了非常不错的成绩。其中,多标记特征选择也在数据挖掘和机器学习中得到了越来越多的关注,而且已经提出了大量的算法来实现特征空间的降维,并成功地应用于多种领域。多标记特征选择的目的就是实现特征降维,选择具有高度鉴别能力的特征,来实现相关性最大化与冗余性最小化。与多标记特征提取不同,特征选择是从原始特征空间中选择特征,不进行任何变换,很好地保留了原始特征的物理意义,在可读性和可解释性方面,多标记特征选择算法已成为许多研究者关注的焦点。在多数特征选择算法中主要利用信息熵等方法判断相关性,利用条件概率判断冗余性,这些方法不仅需要先验知识,而且计算较为复杂。并且进行多标记特征选择时,标记具有其本身所独有的属性,这些独有的属性对于标记具有很强的判别能力,因此,加强对类属属性的研究,可以更加高效地开展多标记学习,基于上述问题,本文提出了两种特征选择算法,主要内容如下:(1)本文利用粗糙集隶属度与肯德尔相关系数进行特征选择。粗糙集计算的特点就是不需要先验知识,对数... 

【文章来源】:安庆师范大学安徽省

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

多标记特征选择及其类属属性获取算法


单标记学习样例

沙子,问题


21.2国内外研究现状在传统的单标记学习过程中,我们所认为的真实世界,它的每一个对象只存在一个类别标记与之对应,例如图1.1我们只把它标记为“兔子”,没有了其它标记。但是我们知道在现实的世界中,每一个对象都具有很多种类别属性,存在很多的类别标记,即属于多标记的类别标记。例如图1.2,我们可以把图片做出多个标记,如“天空”,“海水”,“沙子”等。图1.1单标记学习样例多标记问题在我们的实际生活中也是非常常见的,例如在文本分类中,一篇文章可能被标记为“地理”,“历史”类文章;在风景分类中,一张图片可能被标注为“鲜花”或“树林”;在一篇“当前政治会议对经济的影响”的新闻报道中,我们可以把这篇报道标记为“政治”或“经济”新闻来表现出这两方面的相关性等等。随着我们时代的快速发展,我们生产生活所产生的数据也在不断地增加,数据的复杂化使得传统对象的语义变得不唯一,单一语义的单标记学习完全不能满足数据发展的要求。越来越多的国内外学者开始广泛关注于多标记对象的多义性特点。在多标记学习过程中,一个对象可以对应多种解释,我们就把这些多种解释,标注为合理的类别标记,即标记子集。作为一种学习建模工具,多标记学习框架应运而生[9]。图1.2多标记学习样例与单标记不同,多标记学习问题在我们的学习、生产、生活中有着非常多的应用,在建立多义性对象学习模型方面扮演着非常重要的角色。现在在很多的领域多标记都有着广泛的应用,比如在文本分类[10-11]、情感分析[12-13]、生物信息学[14]和图像视频自动标注[15]等方面,其中最早出现于文档分类中所遇见的歧义性问天空海水沙子兔子

流程图,特征选择,流程


9术的应用与开发,提高数据运行的准确性和运行效率,来完善特征选择方法,体现一定的应用价值。在机器学习的相关领域中,特征数量一般会比较高,因此不相关的特征势必会对特征产生不同程度的影响,不同的特征之间也会出现一定程度的依赖性,可能会产生一些不理想的后果,具体表述为:(1)特征个数与之前相比逐渐增加,导致特征的分析以及模型的训练时间不断延长。(2)特征个数的不断增加为“维度灾难”的产生提供了条件,导致模型逐渐趋向复杂化发展,对其推广能力产生严重的影响。总的来讲,不同类型与属性的新搜索算法为特征选择算法的应用与实践提供了有力的支持与保障,再加上评估标准的不断完善,推动了特征选择算法的发展与进步。特征选择方法流程图,(如图2.1所示)。特征选择方法大致可以分成三种不同类型:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。图2.1特征选择一般流程2.3.1过滤式选择(filter)过滤式方法的特征选择过程中,(如图2.2所示),需要基于数据集完成特征的正确选择,再选择合适的训练学习器。借助特征的有效选择完成初试特征的快速“过滤”,以完成过滤处理后的特征为基础,对模型进行训练。

【参考文献】:
期刊论文
[1]基于标记增强的多标记代价敏感特征选择算法[J]. 黄锦涛,钱文彬,王映龙.  小型微型计算机系统. 2020(04)
[2]基于标记相关性的多标记三支分类算法[J]. 余鹰,吴新念,王乐为,张应龙.  山东大学学报(理学版). 2020(03)
[3]不平衡训练数据下的基于深度学习的文本分类[J]. 陈志,郭武.  小型微型计算机系统. 2020(01)
[4]基于专家特征的条件互信息多标记特征选择算法[J]. 程玉胜,宋帆,王一宾,钱坤.  计算机应用. 2020(02)
[5]基于标签相关性的类属属性多标签分类算法[J]. 牟甲鹏,蔡剑,余孟池,徐建.  计算机应用研究. 2020(09)
[6]多标签学习中基于互信息的快速特征选择方法[J]. 徐洪峰,孙振强.  计算机应用. 2019(10)
[7]弹性网络核极限学习机的多标记学习算法[J]. 王一宾,裴根生,程玉胜.  智能系统学报. 2019(04)
[8]文本分类TF-IDF算法的改进研究[J]. 叶雪梅,毛雪岷,夏锦春,王波.  计算机工程与应用. 2019(02)
[9]基于稀疏表示的视频目标跟踪研究综述[J]. 黄宏图,毕笃彦,侯志强,胡长城,高山,查宇飞,库涛.  自动化学报. 2018(10)
[10]基于粗糙集的数据流多标记分布特征选择[J]. 程玉胜,陈飞,王一宾.  计算机应用. 2018(11)



本文编号:3131987

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3131987.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户13e14***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com