当前位置:主页 > 科技论文 > 自动化论文 >

基于序列前向选择策略的过滤算法研究

发布时间:2020-03-23 10:47
【摘要】:随着大数据时代的到来,人类活动在不同领域产生了大量数据。这些庞大的数据信息为计算机科学家提供了丰富研究素材的同时,也带来了巨大的挑战。其中,高维数据中存在大量的噪音和冗余信息,这不仅不能为科学家们提供更多的信息,还会对真正有用的信息造成干扰。因此,特征选择技术应运而生。特征选择技术是机器学习和模式识别领域中重要的数据预处理手段。特征选择技术通过剔除数据中无关和冗余的特征,保留最具信息量的特征。利用特征选择算法选择出来的特征子集,可以提高数据质量,从而提高分类器的准确率。根据与分类器的关系,特征选择算法大致被划分为三类:过滤法(Filter),封装法(Wrapper)和嵌入法(Embedded)。过滤法由于它独立于分类器,执行速度快,易实现等特点而备受关注。另外,在搜索策略上,我们选择序列前向搜索策略。在测量特征与特征,以及特征与标签相关性时,我们利用信息论作为测量工具。传统的基于信息论的过滤式特征选择算法大致通过两方面手段选取最具信息量的特征子集:减小特征冗余;增大新的分类信息。本文围绕着两方面特征选择手段的缺陷,提出了两种不同的解决方法;另外针对两种手段同时忽略的问题,提出了一个补充项,并设计了一种新的特征选择算法;最后,本文还对两个新型特征选择算法进行了优化,并给出一种优化特征选择算法。具体而言,本文的主要贡献点和创新点如下:1.总结两类特征选择方法;结合类依赖特征冗余和类独立特征冗余,提出了一种混合特征选择方法Minimal Redundancy-Maximal New Classification Information(MR-MNCI)。这种混合特征选择方法分别与两类特征选择方法进行实验对比,实验结果证明MR-MNCI算法具有分类优势。另外,本文指出了该方法的不足以及未来的研究方向。2.通过分析增大新的分类信息的特征选择算法和信息论的基本概念,对特征相关性进行了重新解释,并提出了一种新的过滤式特征选择算法Compositionof Feature Relevancy(CFR)。另外,我们通过一系列等式变换,证明了CFR算法符合一种通项,并通过实验证明了CFR算法的分类优势。3.已存在的特征选择算法忽略了已选特征的动态变化。根据一个实例在信息论测量上的表现,本文提出了一个已选特征动态变化项,并且重新定义了特征相关性。通过结合新的特征相关项,已选特征动态变化项和特征冗余项。本文提出了一种极具竞争力的过滤式特征选择算法Dynamic Change of Selected Feature(DCSF),并在4种不同分类器和在没有特征选择的情况下进行了实验,DCSF算法取得了不错的分类表现。4.传统的特征选择算法不区分候选特征相关性和已选特征相关性,并且在分类过程中,一些依赖特征被误认为是冗余特征。针对以上问题,本文结合特征选择算法Joint Mutual Information Maximization(JMIM)对最小联合互信息的定义,以及Gene Selection via Dynamic Relevance(DRGS)算法对已选特征的权重赋值,将候选特征相关性和已选特征相关性进行区分,并且引进DRGS算法对已选特征的权重,提出了Dynamic Relevance and Joint Mutual Information Maximization(DRJMIM)算法。DRJMIM算法分别与JMIM和DRGS以及其它3个特征选择算法分别在一个具体实例和12个真实数据集上了进行了实验分析。实验结果证明,DRJMIM算法优于其它对比算法。本文致力于过滤式特征选择算法在序列前向选择策略上的研究。针对现有的过滤式特征选择算法存在的问题,提出了不同的解决方案并取得了良好的效果。这些研究可以为一些高维数据剔除无关和冗余特征,保留相关特征,从而提高数据质量。因此,具有重要的理论意义和应用价值。
【图文】:

关系图,过滤式,特征选择,学习算法


Filter模型与学习算法关系图

关系图,封装法,学习算法,关系图


吉林大学博士学位论文要性。封装法的优势在:由于它在学习过程中直接应它所选出来的特征子集质量较高。然而封装法获取选择特征时,封装法都要执行分类算法,,根据分类子集的好坏。封装法与分类算法的关系可以用图 1
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TP391.3;TP181

【相似文献】

相关期刊论文 前10条

1 吴中华;郑玮;;基于?_(2,1)范数的在线流特征选择算法[J];计算机与数字工程;2019年06期

2 代琨;于宏毅;马学刚;李青;;基于支持向量机的特征选择算法综述[J];信息工程大学学报;2014年01期

3 陈建华;王治和;蒋芸;许虎寅;樊东辉;;一种改进的文本分类特征选择算法[J];微电子学与计算机;2011年12期

4 张文静;王备战;张志宏;;基于图的特征选择算法综述[J];安徽大学学报(自然科学版);2017年01期

5 孙刚;张靖;;面向高维微阵列数据的集成特征选择算法[J];计算机工程与科学;2016年07期

6 张自敏;;大数据中基于稀疏投影的在线特征选择算法[J];湖南科技大学学报(自然科学版);2018年03期

7 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期

8 李富星;蒙祖强;;一种改进的类别区分词特征选择算法[J];计算机与现代化;2019年03期

9 刘飞飞;;特征选择算法及应用综述[J];办公自动化;2018年21期

10 侯屿;秦小林;彭皓月;张力戈;;全局调距和声特征选择算法[J];计算机工程与应用;2019年02期

相关会议论文 前10条

1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

2 陈伟海;李建军;赵志华;曹丹阳;李晋宏;;数据挖掘特征选择算法研究及其在铝电解中的应用[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年

3 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

5 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

7 李文法;段m#毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年

9 杨宏晖;李江涛;甘安琴;姚晓辉;;用于水下目标识别的无监督谱特征选择算法[A];2016年中国造船工程学会水中目标特性学组学术交流会论文集[C];2016年

10 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

相关博士学位论文 前10条

1 高万夫;基于序列前向选择策略的过滤算法研究[D];吉林大学;2019年

2 田肃岩;吸纳通路信息识别相关基因的特征选择算法的研究[D];吉林大学;2018年

3 黄鑫;基于特征关联关系的特征选择算法研究[D];大连理工大学;2018年

4 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年

5 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年

6 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年

7 史彩娟;网络空间图像标注中半监督稀疏特征选择算法研究[D];北京交通大学;2015年

8 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年

9 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年

10 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

相关硕士学位论文 前10条

1 李飞;基于层次聚类的生物数据特征选择算法的研究与实现[D];吉林大学;2019年

2 王颖;基于乌鸦搜索算法的特征选择算法的研究及改进优化[D];吉林大学;2019年

3 李森;基于多目标进化优化的癌症数据特征选择算法研究[D];安徽大学;2019年

4 郭伟;大样本高维数据下基于进化多目标优化的特征选择算法研究[D];安徽大学;2019年

5 唐莉;基于样本差异性分析的多标记特征选择算法研究[D];闽南师范大学;2019年

6 李昌聪;基于代价敏感的特征选择算法研究及应用[D];兰州大学;2019年

7 赵凯;Android恶意应用检测中特征选择算法的研究[D];湖南大学;2016年

8 赵军;基于Top-r方法的特征选择算法研究[D];湖南大学;2014年

9 樊力文;基于Spark的稳定特征及流式特征选择算法研究[D];河南大学;2018年

10 脱倩娟;基于数据相似性的特征选择算法研究[D];闽南师范大学;2018年



本文编号:2596617

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2596617.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58317***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com