属性子集选择算法及其推荐方法研究

发布时间:2017-12-29 02:01

  本文关键词:属性子集选择算法及其推荐方法研究 出处:《西安交通大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 属性子集选择 算法推荐 元学习 多标签学习


【摘要】:数据挖掘领域存在一个重要原则GIGO(Garbage In,Garbage Out),说明挖掘知识的可靠性取决于收集数据的质量,而影响数据质量的一个重要因素就是用于描述数据的属性质量。为此研究人员常借助于属性子集选择(简称属性选择),通过特定策略从原始属性集合中选择与学习目标密切相关的属性子集来描述数据集。本文研究重点为属性选择算法及如何为新问题推荐合适的属性选择算法。属性选择通常通过识别并删除与学习目标不相关的属性和对描述学习目标而言是冗余的属性来完成。然而属性间交互作用也是属性选择过程中一个不容忽视的因素。已有研究中很少能够在删除不相关、冗余属性的同时兼顾属性间交互作用。为此本文首先提出了两种新的基于规则挖掘的属性选择算法同时兼顾到上述几点。对于中低维度数据集,本文提出了一种基于关联规则挖掘的属性选择算法FEAST(Feature subset s Election Algorithm based a Sossica Tion rule mining),该方法首先挖掘两种带约束的关联规则:分类和原子型关联规则,之后利用分类型关联规则来删除不相关属性并保留属性间交互作用,最后利用原子型关联规则识别和删除冗余属性得到最终属性子集。同时,由于支持度和置信度阈值是FEAST算法中的两个关键参数,为了更好的利用FEAST算法,提出了一种基于偏最小二乘回归的阈值预测方法来为新的数据集预测合适的参数。人工数据集上的实验结果表明FEAST能够在识别不相关、冗余属性的同时兼顾到属性间交互作用,实际数据集上的实验结果表明了FEAST算法在提高常用分类器Na?ve Bayes,C4.5,PART以及IB1的平均分类精度上优于其他常用属性选择算法以及阈值预测方法的有效性。对于高维数据集,FEAST算法由于高时间复杂度而不适用。为此本文提出了一种基于FOIL(First Order Inductive Leaner)规则生成方法的属性选择算法FRFS(FOIL Rule based F eature subset Selection algorithm)。该算法通过在基本FOIL规则生成过程中加入约束条件来过滤冗余属性并保留属性间交互作用,同时通过提出的一种基于规则支持度的属性相关性度量指标Cover Ratio来识别不相关属性。最后在人工数据集和实际高维数据集上对FRFS的性能进行测试,实验结果表明了FRFS不仅能在识别不相关、冗余属性的同时兼顾到属性间交互作用,而且在提高分类器Na?ve Bayes,C4.5,PART和IB1的平均分类精度上要明显优于常用属性选择算法,同时相比其他属性选择算法在高维数据集上的运行效率提高10倍以上。尽管新属性选择算法或者已有算法的改进在不断提出,根据NFL(No Free Lunch)理论,并不存在特定属性选择算法适用于所有问题。对于给定属性选择问题,不同属性选择算法间存在性能差异。如何为指定问题推荐性能较优的属性选择算法就显得尤为重要。数据挖掘领域的元学习是一种通过分析问题特征和算法性能间关系,进而利用这种关系为新问题选择合适算法的方法。本文将该思想用于属性选择算法推荐,提出了一种基于元学习的属性选择算法自动推荐方法。对于指定数据集,该推荐方法首先抽取数据集特征,并根据数据集特征来计算其近邻数据集,然后根据候选属性选择算法在这些近邻数据集上的性能对候选算法进行排序,最后将性能表现较优,即排序靠前的算法推荐给该数据集。同时该推荐方法中采用了一种面向用户的多标准度量指标来评价属性选择算法性能,能兼顾到属性选择算法选择子集上对应分类器的分类精度,算法运行时间和选择属性的数量。最后在115实际数据集和22个不同的属性选择算法上对该推荐方法进行了测试,实验结果表明了该方法能够快速有效地推荐合适的属性选择算法,推荐命中率高达90%以上。基于元学习的算法推荐方法根据元特征(即描述数据集的指标)抽取方法和元目标(候选算法的相对性能)表现形式不同可分为不同类别。已有推荐方法通常将元学习目标看作单个算法(或单标签形式)或候选算法的排序,且基于算法排序的推荐方法推荐结果通常也是算法排序,并不能确定具体有几个算法可用于推荐。然而从理论和实验角度分析均可得出,指定数据集上合适算法存在多个,且随着数据集不同合适算法数量不同,即元目标看作多标签形式更加合理。因此本文将算法推荐看作多标签学习问题并提出了一种基于多标签学习的属性选择算法推荐方法。最后,通过在115实际属性选择数据集,5种不同数据集特征提取方法和22个属性选择算法上进行实验,结果表明了基于多标签学习的推荐方法相比已有的基于算法排序和单标签的推荐方法能够显著提高不同数据特征上的平均推荐命中率。
[Abstract]:......
【学位授予单位】:西安交通大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 仲盛;多元选择算法的改进[J];微机发展;1996年06期

2 蒋宗礼,徐斌斌;网络中同步源选择算法研究[J];北京工业大学学报;2005年04期

3 严文中;朱金山;薛榕;赵问道;;无线小区固定中继选择算法及仿真[J];电声技术;2007年01期

4 何振华;裴廷睿;曾文丽;朱晓瑜;;面向用户的异构网接入选择算法[J];计算机工程与应用;2010年15期

5 解志斌;汪晋宽;王峗;高静;;基于Householder-QR分解的低复杂度天线选择算法[J];东北大学学报(自然科学版);2008年09期

6 段俊毅;;基于频移最小化的天线选择算法[J];长沙通信职业技术学院学报;2012年03期

7 解志斌;刘淑娟;田雨波;颜培玉;;一种基于相异度的接收天线选择算法[J];电波科学学报;2012年01期

8 曹蔚;;基于用户公平性的中继选择算法[J];中国科技信息;2011年20期

9 潘峰,丁云飞,汪为农;基于逐级反向选择算法的入侵检测[J];上海交通大学学报;2005年04期

10 薛桂芹,汪晋宽,贾利琴;相关信道下多模式天线选择算法的研究[J];仪器仪表学报;2005年S2期

相关会议论文 前5条

1 王磊;郑宝玉;贾国强;;空间复用系统中一种新的天线选择算法[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

2 薛桂芹;汪晋宽;贾利琴;;相关信道下多模式天线选择算法的研究[A];第七届青年学术会议论文集[C];2005年

3 苏永哲;;分布式MIMO系统中一种新的快速天线选择算法[A];2009年全国无线电应用与管理学术会议论文集[C];2009年

4 王广涛;宋擒豹;车蕊;;一种新的基于信息熵的属性选择算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

5 谯骁;董秀成;唐海英;代显志;;基于H.264的快速运动估计和帧间模式选择算法[A];四川省电工技术学会第九届学术年会论文集[C];2008年

相关博士学位论文 前3条

1 王广涛;属性子集选择算法及其推荐方法研究[D];西安交通大学;2017年

2 兰鹏;MIMO系统下行链路天线与用户选择算法研究[D];山东大学;2009年

3 解志斌;MIMO系统的优化与天线选择算法的研究[D];东北大学;2009年

相关硕士学位论文 前10条

1 林毅松;MIMO系统中基于信道容量的收发联合天线选择算法的研究[D];华侨大学;2015年

2 王顺顺;载波索引调制OFDM无线传输技术研究[D];电子科技大学;2015年

3 杨存;多终端协同下的网络选择算法研究[D];南京邮电大学;2015年

4 白琰;IEEE 802.11ad网络中的中继选择算法研究[D];西安电子科技大学;2015年

5 殷建鹏;支持QoS的异构无线网络接入选择算法研究[D];华南理工大学;2016年

6 唐昭;基于上下文感知的服务选择算法的研究[D];北京邮电大学;2011年

7 薛桂芹;多输入多输出系统中天线选择算法的研究[D];东北大学;2006年

8 孟华军;Ad Hoc网络模型下的边不相交路径选择算法[D];大连海事大学;2006年

9 张进;MPLS TE中路径选择算法的研究与应用[D];西北工业大学;2006年

10 杨宾;车联网中继选择算法研究[D];重庆邮电大学;2014年



本文编号:1348314

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1348314.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ab880***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com