基于邻域一致性的高维小样本特征选择算法研究
发布时间:2021-11-09 16:02
随着大数据技术的蓬勃发展,面向语义分析、图像识别和基因选择的应用得到广泛普及,这些领域的数据呈现出高维小样本特点,即特征空间高维度,而样本数量过少。高维小样本数据存在着特征维数与样本数量不协调和类别分布偏斜等问题,作为应用驱动的本质特征,面向高维小样本的分类学习面临着计算低效、预测精度不高、无法识别小类样本,以及模型过拟合、稳定性欠佳、存储开销大等诸多挑战。为了充分挖掘高维小样本数据的应用价值,基于高维小样本数据的知识发现成为备受关注的研究热点。特征选择通过删除数据特征空间中与标记无关的特征、噪声特征或冗余特征,以此来对数据的特征空间进行降维。本文以高维小样本数据为研究对象,围绕高维小样本数据特征选择存在的挑战性问题,重点关注真实场景中不同的应用需求,展开对监督学习模式下的高维小样本数据特征选择算法的研究。主要研究内容包括:(1)针对由特征高维性与样本数量不协调带来的问题,提出基于子空间学习的高维小样本数据特征选择算法。首先,利用特征扰动策略,定义基准特征和基准特征空间,构建具有差异性的多个特征子空间。其次,提出基于子空间学习的高维小样本数据特征选择算法。最后,选取八个数据集与七个算法...
【文章来源】:闽南师范大学福建省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图1.1分类效果随特征维度变化示意图
闽南师范大学工学硕士学位论文–12–余特征、噪声特征和不相关特征被删除,有用的特征被保留。文献[38]给出了特征选择的基本框架,如图2.1所示。图2.1特征选择基本框架Fig.2.1Thebasicframeworkoffeatureselection如图2.1所示,特征选择的一般过程包括子集生成,评价函数,停止准则和验证过程四个基本步骤。(1)子集生成(SubsetGeneration):基于某种搜索策略生成特征子集的过程。(2)评价函数(EvaluationFunction):评价特征子集与决策的相关程度。(3)停止准则(StoppingCriterion):当评价函数值达到某个阈值后停止搜索。(4)验证过程(ValidationProcedure):在测试数据上验证特征子集的有效性。特征选择的形式化定义如下:假设给定论域空间内的决策系统U,F,L,U=x1,x2,,xmT表示样本集合,其中,集合U包含m个样本。F=f1,f2,,fnT表示特征空间,其中,集合F包含n个特征。L=l1,l2,,lcT表示包含c个不同类的标记向量。特征选择就是从集合F中选择一个特征子集S,其中,SF,使得在特征子集S上的映射函数h:xl依据某些评价标准“尽可能地好”。2.2.1基于搜索策略的特征选择方法分类
闽南师范大学工学硕士学位论文–14–2.2.2基于评价函数的特征选择方法分类特征选择技术依据评价函数是否独立于验证过程可分为过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)[44]。过滤式方法的评价函数与验证过程无关,一般直接利用所有训练数据的统计性能评估特征的重要度,如方差、互信息、相关系数和卡方检验等。该方法独立于分类器,运行速度快但其对特征的评估与分类器的性能存在较大的偏差。封装式方法利用分类器的预测精度评估特征子集是否与学习目标相关,其过程是在确定评价函数后,对不同特征子集反复做交叉验证,进而搜索最佳特征子集。该方法对特征的评估与分类器的性能偏差小,但时间复杂度高,不适合应用于大规模数据集。嵌入式方法融合特征选择过程与分类器训练过程,在分类器训练过程中自动进行特征选择,如决策树、L1正则化。过滤式、封装式和嵌入式方法的示意图如图2.2所示。接下来,分别对Filter、Wrapper和Embedded方法进行分析。(a)过滤式(b)封装式(c)嵌入式图2.2基于评价函数的特征选择方法分类Fig.2.2Classificationoffeatureselectionmethodbasedonevaluationfunction(1)过滤式(Filter)特征选择方法过滤式方法运用评价函数来判别特征之间的冗余性和特征与标记的相关性,如图2.2(a)所示。实际上,评价函数的优劣决定着特征子集在多大程度上与标记相关[45]。过滤法的优势在于可以快速去除冗余、噪声和不相关特征,时效性高,通用性好。不过,
【参考文献】:
期刊论文
[1]基于邻域交互增益信息的多标记流特征选择算法[J]. 陈超逸,林耀进,唐莉,王晨曦. 南京大学学报(自然科学). 2020(01)
[2]基于邻域粗糙集的大规模层次分类在线流特征选择[J]. 白盛兴,林耀进,王晨曦,陈晟煜. 模式识别与人工智能. 2019(09)
[3]基于邻域粗糙集的高维类不平衡数据在线流特征选择[J]. 陈祥焰,林耀进,王晨曦. 模式识别与人工智能. 2019(08)
[4]大规模分类任务的分层学习方法综述[J]. 胡清华,王煜,周玉灿,赵红,钱宇华,梁吉业. 中国科学:信息科学. 2018(05)
[5]结合近邻传播聚类的选择性集成分类方法[J]. 孟军,张晶,姜丁菱,何馨宇,李丽双. 计算机研究与发展. 2018(05)
[6]一种用于文本分类的去冗余特征选择新方法(英文)[J]. You-wei WANG,Li-zhou FENG. Frontiers of Information Technology & Electronic Engineering. 2018(02)
[7]非平衡基因数据的差异表达基因选择算法研究[J]. 谢娟英,王明钊,周颖,高红超,许升全. 计算机学报. 2019(06)
[8]基于疾病信息网络的表型相似基因搜索[J]. 侯泳旭,段磊,李岭,卢莉,唐常杰. 软件学报. 2018(03)
[9]特征选择稳定性研究综述[J]. 刘艺,曹建军,刁兴春,周星. 软件学报. 2018(09)
[10]基于多特征空间的粗糙数据分析方法[J]. 杨习贝,徐苏平,戚湧,於东军. 江苏科技大学学报(自然科学版). 2016(04)
博士论文
[1]在线流特征选择算法研究[D]. 周鹏.合肥工业大学 2018
[2]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
[3]流特征下的在线知识发现研究[D]. 俞奎.合肥工业大学 2013
[4]文本分类中特征选择技术的研究[D]. 王博.国防科学技术大学 2009
硕士论文
[1]高维小样本数据的特征选择研究及其稳定性分析[D]. 宁永鹏.厦门大学 2014
本文编号:3485657
【文章来源】:闽南师范大学福建省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图1.1分类效果随特征维度变化示意图
闽南师范大学工学硕士学位论文–12–余特征、噪声特征和不相关特征被删除,有用的特征被保留。文献[38]给出了特征选择的基本框架,如图2.1所示。图2.1特征选择基本框架Fig.2.1Thebasicframeworkoffeatureselection如图2.1所示,特征选择的一般过程包括子集生成,评价函数,停止准则和验证过程四个基本步骤。(1)子集生成(SubsetGeneration):基于某种搜索策略生成特征子集的过程。(2)评价函数(EvaluationFunction):评价特征子集与决策的相关程度。(3)停止准则(StoppingCriterion):当评价函数值达到某个阈值后停止搜索。(4)验证过程(ValidationProcedure):在测试数据上验证特征子集的有效性。特征选择的形式化定义如下:假设给定论域空间内的决策系统U,F,L,U=x1,x2,,xmT表示样本集合,其中,集合U包含m个样本。F=f1,f2,,fnT表示特征空间,其中,集合F包含n个特征。L=l1,l2,,lcT表示包含c个不同类的标记向量。特征选择就是从集合F中选择一个特征子集S,其中,SF,使得在特征子集S上的映射函数h:xl依据某些评价标准“尽可能地好”。2.2.1基于搜索策略的特征选择方法分类
闽南师范大学工学硕士学位论文–14–2.2.2基于评价函数的特征选择方法分类特征选择技术依据评价函数是否独立于验证过程可分为过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)[44]。过滤式方法的评价函数与验证过程无关,一般直接利用所有训练数据的统计性能评估特征的重要度,如方差、互信息、相关系数和卡方检验等。该方法独立于分类器,运行速度快但其对特征的评估与分类器的性能存在较大的偏差。封装式方法利用分类器的预测精度评估特征子集是否与学习目标相关,其过程是在确定评价函数后,对不同特征子集反复做交叉验证,进而搜索最佳特征子集。该方法对特征的评估与分类器的性能偏差小,但时间复杂度高,不适合应用于大规模数据集。嵌入式方法融合特征选择过程与分类器训练过程,在分类器训练过程中自动进行特征选择,如决策树、L1正则化。过滤式、封装式和嵌入式方法的示意图如图2.2所示。接下来,分别对Filter、Wrapper和Embedded方法进行分析。(a)过滤式(b)封装式(c)嵌入式图2.2基于评价函数的特征选择方法分类Fig.2.2Classificationoffeatureselectionmethodbasedonevaluationfunction(1)过滤式(Filter)特征选择方法过滤式方法运用评价函数来判别特征之间的冗余性和特征与标记的相关性,如图2.2(a)所示。实际上,评价函数的优劣决定着特征子集在多大程度上与标记相关[45]。过滤法的优势在于可以快速去除冗余、噪声和不相关特征,时效性高,通用性好。不过,
【参考文献】:
期刊论文
[1]基于邻域交互增益信息的多标记流特征选择算法[J]. 陈超逸,林耀进,唐莉,王晨曦. 南京大学学报(自然科学). 2020(01)
[2]基于邻域粗糙集的大规模层次分类在线流特征选择[J]. 白盛兴,林耀进,王晨曦,陈晟煜. 模式识别与人工智能. 2019(09)
[3]基于邻域粗糙集的高维类不平衡数据在线流特征选择[J]. 陈祥焰,林耀进,王晨曦. 模式识别与人工智能. 2019(08)
[4]大规模分类任务的分层学习方法综述[J]. 胡清华,王煜,周玉灿,赵红,钱宇华,梁吉业. 中国科学:信息科学. 2018(05)
[5]结合近邻传播聚类的选择性集成分类方法[J]. 孟军,张晶,姜丁菱,何馨宇,李丽双. 计算机研究与发展. 2018(05)
[6]一种用于文本分类的去冗余特征选择新方法(英文)[J]. You-wei WANG,Li-zhou FENG. Frontiers of Information Technology & Electronic Engineering. 2018(02)
[7]非平衡基因数据的差异表达基因选择算法研究[J]. 谢娟英,王明钊,周颖,高红超,许升全. 计算机学报. 2019(06)
[8]基于疾病信息网络的表型相似基因搜索[J]. 侯泳旭,段磊,李岭,卢莉,唐常杰. 软件学报. 2018(03)
[9]特征选择稳定性研究综述[J]. 刘艺,曹建军,刁兴春,周星. 软件学报. 2018(09)
[10]基于多特征空间的粗糙数据分析方法[J]. 杨习贝,徐苏平,戚湧,於东军. 江苏科技大学学报(自然科学版). 2016(04)
博士论文
[1]在线流特征选择算法研究[D]. 周鹏.合肥工业大学 2018
[2]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
[3]流特征下的在线知识发现研究[D]. 俞奎.合肥工业大学 2013
[4]文本分类中特征选择技术的研究[D]. 王博.国防科学技术大学 2009
硕士论文
[1]高维小样本数据的特征选择研究及其稳定性分析[D]. 宁永鹏.厦门大学 2014
本文编号:3485657
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3485657.html