当前位置:主页 > 科技论文 > 搜索引擎论文 >

大样本高维数据下基于进化多目标优化的特征选择算法研究

发布时间:2020-06-12 22:54
【摘要】:特征选择作为机器学习和数据挖掘任务的重要数据预处理技术之一,其目的在于从原始特征中选择相关特征子集,以获得更好的预测结果,更低的计算成本和更好的模型解释性。然而,在实际应用中,如信息检索、生物特征识别中广泛存在大样本数据和高维数据给现有的特征选择算法带来巨大挑战。现有的特征选择算法将特征数和所选特征子集上的精度加权为一个目标,利用梯度法求解,虽然可以获得好的效果,但是需要有先验知识,并且要求优化函数是凸和光滑的。本文将特征数目和该特征子集上的精度作为两个独立的目标,以多目标的方式求解,并采用具有良好全局搜索能力的进化算法作为优化工具。本文针对性的提出了两种特征选择算法,分别用于解决大样本数据和高维数据下的特征选择问题。本文的主要工作包括以下两个部分:(1)大样本数据下的特征选择问题。由于样本数目大,导致计算代价昂贵。本文以训练数据量为O(n2)的Pairwise排序问题为例提出基于进化多目标优化的特征选择算法MOFSRank,该算法包括三个策略:1、多目标实例选择策略:该策略从训练实例中选择具有代表性的实例,通过消除训练实例中可能存在的冗余数据,给后续的特征选择选取数目少、代表性强的实例;2、多目标特征选择策略:在上述工作的基础之上,同时为了进一步提升算法在特征选择中的性能,本文采用了一个自适应的变异概率,以得到排序精度高、冗余度低的特征子集;3、Pareto集成策略:该策略采用了一个混合集成思想,利用集成的思想,将策略2的所得Pareto最优集中的非支配个体加以集成,以产生更好的特征组合。实验结果表明,MOFSRank算法可以在选取较少特征的情况下达到很好的排序结果。(2)高维数据下的特征选择问题。由于存在巨大的搜索空间,需要大量的评价次数从而使优化过程付出巨大的计算代价。本文针对此问题提出基于进化多目标优化的指导模型算法GMA。该算法包括两个策略:1、自适应缩减策略:该策略可以快速剔除不相关和冗余特征,降低搜索空间。同时,实验结果表明当数据维度越高,其优势更为明显;2、指导模型预筛选策略:该策略利用已有的函数适应度值训练指导模型,并让指导模型帮助筛选种群个体,因此能减少真实评价次数,加速算法搜索。在多个高维数据集上的实验结果表明,GMA算法可以在高维数据集中,以较低的计算代价获得更好的特征子集。
【图文】:

混合编码,非支配解


其中/表示MOFS的非支配解中不同特征的数量,第i位对应于第i个特逡逑征,如果该位为I,则表示此特征被选中,0表示不选。第:部分使用实数编码,逡逑其长度等于|rsetx/|,其中丨rset|是第:阶段的Pareto解的数量。图3.3提供了逡逑混合编码方案的示例。逡逑binary邋encoding逦real邋encodinc逡逑sub-partl逦sub-part2逦sub-pari3逡逑ind逡逑parti逦part2逡逑图3.3举例解释混合编码逡逑Fig.邋3.3邋An邋Example邋to邋Illustrate邋the邋Suggested邋Mixed邋Encoding邋Scheme.逡逑在图3.3中,#一个单独的Z?id。ind的第一部分有4位,这意味着MOFS逡逑的非支配解中有4个不同的特征。第二部分由3个子部分组成,表示特征子集的逡逑数量为3。假设它们是F&,/=^2和/^3,因此第/个子部分表示RS,?的集成权重逡逑丨1,2,3丨)。在优化期间,对于个体imf,需要计算其两个目标。从ind的逡逑parq很容易获得第一个目标的值(所选特征的数景)。为了得到第二个目标的逡逑值(所选特征的1邋-邋/Accuracy的值),首先,应该得到与Znd对应的分类器enr。逡逑为此,本节利用第二阶段的非支配解和enr第2部分中的权重。具体而言,针对逡逑某一个分类器enr,每个6逦=邋1,...,/)通过以下公式获得

特征数,数据集,精度,最佳平衡


表3.3和3.4已经验证了邋MOFSRank的优势。逡逑这里进一步研究了邋LEROR数据集中不同特征选择算法的性能,本文详细比逡逑较了不同数量的特征(x轴)情况下N@10邋(y轴)的值,,结果如图3.4所示。需逡逑要注意的是,三个比较算法不能选择指定的特征个数,本文采取了邋FSMRankl—逡逑中的方法,它可以从整个特征中选择前A:邋(A:邋2邋1)个最佳特征。图中可以看出,逡逑尽管不同算法的NDCG精度随所选特征的数量而变化,但本文的MOFSRank始逡逑终可以在精度和所选特征数量之间取得最佳平衡,这表明了其优势。逡逑“7,逦dp7逡逑!J逦^FcnchdRank逦|邋jj逦FenchelRank邋I邋i逡逑|逦-^-FSMIUnfc逦nfi.t逦?逦-e-FSMRank逡逑06邋f逦+丨-逦065f逡逑J逦1 ̄?-MOFSRank逦/逦^MOFSRank邋|逡逑0.55邋^逦逦逦逦逦邋0邋6邋逦'逦逦逦1逦逦逦逦逦逡逑0邋S邋10逦15逦20逦25逦30逦35邋40邋45逦0逦2逦4逦6逦8逦10
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP311.13

【相似文献】

相关期刊论文 前10条

1 吴中华;郑玮;;基于?_(2,1)范数的在线流特征选择算法[J];计算机与数字工程;2019年06期

2 代琨;于宏毅;马学刚;李青;;基于支持向量机的特征选择算法综述[J];信息工程大学学报;2014年01期

3 陈建华;王治和;蒋芸;许虎寅;樊东辉;;一种改进的文本分类特征选择算法[J];微电子学与计算机;2011年12期

4 张文静;王备战;张志宏;;基于图的特征选择算法综述[J];安徽大学学报(自然科学版);2017年01期

5 孙刚;张靖;;面向高维微阵列数据的集成特征选择算法[J];计算机工程与科学;2016年07期

6 张自敏;;大数据中基于稀疏投影的在线特征选择算法[J];湖南科技大学学报(自然科学版);2018年03期

7 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期

8 李富星;蒙祖强;;一种改进的类别区分词特征选择算法[J];计算机与现代化;2019年03期

9 刘飞飞;;特征选择算法及应用综述[J];办公自动化;2018年21期

10 侯屿;秦小林;彭皓月;张力戈;;全局调距和声特征选择算法[J];计算机工程与应用;2019年02期

相关会议论文 前10条

1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

2 陈伟海;李建军;赵志华;曹丹阳;李晋宏;;数据挖掘特征选择算法研究及其在铝电解中的应用[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年

3 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

5 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

7 李文法;段m#毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年

9 杨宏晖;李江涛;甘安琴;姚晓辉;;用于水下目标识别的无监督谱特征选择算法[A];2016年中国造船工程学会水中目标特性学组学术交流会论文集[C];2016年

10 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

相关博士学位论文 前10条

1 高万夫;基于序列前向选择策略的过滤算法研究[D];吉林大学;2019年

2 田肃岩;吸纳通路信息识别相关基因的特征选择算法的研究[D];吉林大学;2018年

3 黄鑫;基于特征关联关系的特征选择算法研究[D];大连理工大学;2018年

4 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年

5 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年

6 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年

7 史彩娟;网络空间图像标注中半监督稀疏特征选择算法研究[D];北京交通大学;2015年

8 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年

9 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年

10 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

相关硕士学位论文 前10条

1 李飞;基于层次聚类的生物数据特征选择算法的研究与实现[D];吉林大学;2019年

2 王颖;基于乌鸦搜索算法的特征选择算法的研究及改进优化[D];吉林大学;2019年

3 陈飞;标记倾向性和数据流特征选择算法研究[D];安庆师范大学;2019年

4 李森;基于多目标进化优化的癌症数据特征选择算法研究[D];安徽大学;2019年

5 郭伟;大样本高维数据下基于进化多目标优化的特征选择算法研究[D];安徽大学;2019年

6 唐莉;基于样本差异性分析的多标记特征选择算法研究[D];闽南师范大学;2019年

7 李昌聪;基于代价敏感的特征选择算法研究及应用[D];兰州大学;2019年

8 赵凯;Android恶意应用检测中特征选择算法的研究[D];湖南大学;2016年

9 赵军;基于Top-r方法的特征选择算法研究[D];湖南大学;2014年

10 樊力文;基于Spark的稳定特征及流式特征选择算法研究[D];河南大学;2018年



本文编号:2710226

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2710226.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户14753***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com