当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Spark的稳定特征及流式特征选择算法研究

发布时间:2020-03-25 00:24
【摘要】:高维数据的处理,一直都是数据挖掘领域中的难点。传统的数据挖掘方法在计算过程中往往需要用到数据中的所有的特征值,在处理特征维度较低的数据时是可行的,但是在处理维度过高的数据时则会遇到很多的问题,比如“维度灾难”(curse of dimensionality)问题。在大数据时代数据维度越来越高,如何高效处理这些高维数据,是很多学者的研究重点。高维数据处理最常用的方式是数据降维(dimensionality reduction),而对数据进行降维最常使用的是特征选择方法。关于特征选择算法的研究现在已经有很多的成果,如Relief算法等。但是大多对特征选择算法研究主要是考虑如何提高后续算法的分类性能,对算法稳定性方面的研究还比较少,而特征选择的稳定性是高维数据挖掘中一个重要问题。特征选择算法的稳定性是指,当数据集发生轻微的扰动时,所得到的特征子集会不会发生较大的改变。近些年关于如何提升特征选择算法的稳定性的研究已经有了一定的成果。本文分别对两种较新稳定的特征选择算法IW-Relief和FREL进行实现与研究,并验证其稳定效果。但是很多提高特征选择稳定性的方法在解决算法稳定性的过程中,往往并不能降低算法的时间复杂度,有些时候为了实现算法的稳定还会增加额外的时间开销,比如IW-Relief算法,而在很多应用场景中对算法的时间开销是有确切要求的或者希望能尽可能缩短算法的运行时间,因此需要设计新的解决方案来降低算法的时间开销。特征选择的另外一项重要研究课题是对流式数据的特征选择。互联网中产生的数据大多数都是流式的,比如金融信息、消息信息、访问日志等,这些流式数据大多需要实时处理。已有的流式的特征选择算法,大多数是以串行方式处理数据,因此对于如何实现流式特征选择算法的并行化研究也是一个非常有意义的课题。因此,本文对基于Apache Spark的稳定特征及流式特征选择进行了研究。Spark是一款开源的基于分布式的计算框架,因其优良的计算性能和完善的数据处理组件,近些年来被广泛的应用于数据挖掘、机器学习等领域。使用该框架和相应的算法结合,可以实现算法的并行化计算,从而可以有效的加快算法的运行速度。本文中结合Spark平台和IW-Relief、FREL这两种稳定的特征选择算法及流式特征选择算法SAOLA,设计基于Spark的并行稳定特征选择及流式特征选择算法,然后使用14个公开数据集,通过实验验证并行化后的算法在时间开销方面的性能。而在Spark平台中影响算法运行时间的因素较多,本文详细验证Spark平台中各项主要参数,如worker、partition、executors等对运行时间的影响。并根据实验结果进行分析和总结,说明各项参数对实验结果造成影响的原因,同时对并行化后的算法进行对比,分析每个算法的优劣。实验结果发现,基于Spark的稳定特征选择算法的时间加速比最大可以达到8,各项参数中对Spark运行时间影响最大的参数为分区数(partitions),而基于Spark的流式特征选择其加速比介于1.4~1.6。
【图文】:

数据,子集,样本,特征选择


图 2-2 数据扰动交叉验证法(Cross-validation)[40]也可以用来验证一个特征选择算法是否具有能,因为交叉验证法中每份样本子集都和其他的样本子集之间存在一份的差异是实现了数据扰动的效果。如图 2-3 所示,交叉验证法:首先需要把选定的数一定的逻辑平均分成 n 等份,然后从中选取 n-1 份作为训练集,剩下的一份为重复执行 n 次。在对特征选择算法的稳定性测量中,每个样本自己从中选取 n-每个样本子集都和其他的样本子集有一份不一样的数据。

交叉验证,子集


图 2-2 数据扰动证法(Cross-validation)[40]也可以用来验证一个特征选择算法为交叉验证法中每份样本子集都和其他的样本子集之间存在一了数据扰动的效果。如图 2-3 所示,交叉验证法:首先需要把逻辑平均分成 n 等份,然后从中选取 n-1 份作为训练集,剩下行 n 次。在对特征选择算法的稳定性测量中,每个样本自己从本子集都和其他的样本子集有一份不一样的数据。
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 代琨;于宏毅;马学刚;李青;;基于支持向量机的特征选择算法综述[J];信息工程大学学报;2014年01期

2 陈建华;王治和;蒋芸;许虎寅;樊东辉;;一种改进的文本分类特征选择算法[J];微电子学与计算机;2011年12期

3 张文静;王备战;张志宏;;基于图的特征选择算法综述[J];安徽大学学报(自然科学版);2017年01期

4 孙刚;张靖;;面向高维微阵列数据的集成特征选择算法[J];计算机工程与科学;2016年07期

5 张自敏;;大数据中基于稀疏投影的在线特征选择算法[J];湖南科技大学学报(自然科学版);2018年03期

6 陈晓明;;海量高维数据下分布式特征选择算法的研究与应用[J];科技通报;2013年08期

7 刘飞飞;;特征选择算法及应用综述[J];办公自动化;2018年21期

8 侯屿;秦小林;彭皓月;张力戈;;全局调距和声特征选择算法[J];计算机工程与应用;2019年02期

9 林梦雷;刘景华;王晨曦;林耀进;;基于标记权重的多标记特征选择算法[J];计算机科学;2017年10期

10 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期

相关会议论文 前10条

1 甄超;郑涛;许洁萍;;音乐流派分类中特征选择算法研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年

2 陈伟海;李建军;赵志华;曹丹阳;李晋宏;;数据挖掘特征选择算法研究及其在铝电解中的应用[A];2011中国有色金属行业仪表自动化学术会议论文集[C];2011年

3 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 张铮;胡社教;江萍;;基于EP模式的特征选择算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

5 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

7 李文法;段m#毅;刘悦;孙春来;;一种面向流分类的特征选择算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年

9 杨宏晖;李江涛;甘安琴;姚晓辉;;用于水下目标识别的无监督谱特征选择算法[A];2016年中国造船工程学会水中目标特性学组学术交流会论文集[C];2016年

10 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

相关博士学位论文 前10条

1 田肃岩;吸纳通路信息识别相关基因的特征选择算法的研究[D];吉林大学;2018年

2 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年

3 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年

4 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年

5 史彩娟;网络空间图像标注中半监督稀疏特征选择算法研究[D];北京交通大学;2015年

6 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年

7 潘巍巍;故障严重程度识别的有序分类特征分析方法[D];哈尔滨工业大学;2013年

8 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

9 王剑桥;基于局部特性的毫米波距离像识别方法研究[D];南京理工大学;2014年

10 耿耀君;高通量数据特征选择算法研究[D];西安电子科技大学;2013年

相关硕士学位论文 前10条

1 赵凯;Android恶意应用检测中特征选择算法的研究[D];湖南大学;2016年

2 郭喜芝;多标签分类中流特征选择算法研究[D];南京师范大学;2018年

3 王国权;面向高维不平衡数据的特征选择算法研究[D];哈尔滨工业大学;2017年

4 施瑞朗;中文文本分类中特征选择算法的研究与改进[D];杭州电子科技大学;2018年

5 脱倩娟;基于数据相似性的特征选择算法研究[D];闽南师范大学;2018年

6 张梦林;基于SAL框架的特征选择算法[D];吉林大学;2018年

7 初蓓;基于演化学习的特征选择算法的研究及改进优化[D];吉林大学;2018年

8 赵军;基于Top-r方法的特征选择算法研究[D];湖南大学;2014年

9 赵凯旋;基于强化学习的特征选择算法研究[D];重庆交通大学;2018年

10 吴中华;流特征选择算法设计及其在基因表达数据上的应用[D];南京理工大学;2018年



本文编号:2599099

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2599099.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69104***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com