基于稀疏化的多标记特征选择方法研究

发布时间:2021-06-13 07:50
  随着大数据时代的到来,不断革新的科技产品产生了海量的数据。数据的维度和复杂程度也随科技的进步而不断的增长,从而导致维度诅咒问题。但是这些高维数据中蕴含在少数数据维度之间的有效信息才是人类日常生活中所需的,这导致数据维度随技术的发展增长和人类为了获取有效信息而降低数据维度的矛盾。为帮助各领域有序的发展,特征选择算法应运而生。特征选择是通过一定的技术手段从原始的数据特征集中选择最优的特征子集,然后利用该子集进行后续的数据分析。特征选择方法可以降低算法的复杂度,提高算法的执行效率,因此成为处理高维度数据的一项有效手段。通常根据数据标签的存在情况可以将特征选择算法分为有监督特征选择(Supervised Feature Selection)、弱监督特征选择(Weakly Supervised Feature Selection)和无监督特征选择(Unsupervised Feature Selection)。根据特征选择和分类学习算法的关系可以将特征选择分成过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)。在我们的方法中,由于着重考虑标签空间中的有效信息,因此在我们... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于稀疏化的多标记特征选择方法研究


过滤式模型与学习算法关系图

关系图,学习算法,关系图,模型


第1章绪论5分类性能较高,缺点是计算成本大。其中递归式的特征消除法(RecursiveFeatureEliminationAlgorithm)属于经典的包裹式方法。嵌入式(Embedded)模型考虑了过滤式和包裹式模型的优缺点,然后直接将特征选择过程嵌入到后续的分类学习算法中,再利用各种正则化技术对损失函数和正则化约束项进行设计和改进,开发适当的优化算法进行优化求解。嵌入式特征选择模型常常从整体角度选择出一个最优的特征子集。经典的算法包括分类决策树算法及其相关变体算法C4.5等[18]。近期,聂飞平等人提出矩阵的L1范数和L2范数的巧妙组合形成新的L2,1范数在嵌入式特征选择中展现出极佳的性能,因而被广泛关注[11]。整体上来说,嵌入式方法计算成本没有包裹式模型高,而泛化能力比过滤式强。这三种特征选择算法模型与后续的学习算法的关系通过如下所示的图1.1,1.2,1.3展示:图1.1过滤式模型与学习算法关系图图1.2包裹式模型与学习算法关系图图1.3嵌入式模型与学习算法关系图

关系图,学习算法,嵌入式,关系图


第1章绪论5分类性能较高,缺点是计算成本大。其中递归式的特征消除法(RecursiveFeatureEliminationAlgorithm)属于经典的包裹式方法。嵌入式(Embedded)模型考虑了过滤式和包裹式模型的优缺点,然后直接将特征选择过程嵌入到后续的分类学习算法中,再利用各种正则化技术对损失函数和正则化约束项进行设计和改进,开发适当的优化算法进行优化求解。嵌入式特征选择模型常常从整体角度选择出一个最优的特征子集。经典的算法包括分类决策树算法及其相关变体算法C4.5等[18]。近期,聂飞平等人提出矩阵的L1范数和L2范数的巧妙组合形成新的L2,1范数在嵌入式特征选择中展现出极佳的性能,因而被广泛关注[11]。整体上来说,嵌入式方法计算成本没有包裹式模型高,而泛化能力比过滤式强。这三种特征选择算法模型与后续的学习算法的关系通过如下所示的图1.1,1.2,1.3展示:图1.1过滤式模型与学习算法关系图图1.2包裹式模型与学习算法关系图图1.3嵌入式模型与学习算法关系图

【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou.  National Science Review. 2018(01)
[2]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文.  控制与决策. 2012(02)

博士论文
[1]弱监督多标记学习[D]. 徐淼.南京大学 2017



本文编号:3227318

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3227318.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a77fe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com