面向高维数据的特征选择算法和研究.pdf
本文关键词:面向高维数据的特征选择算法研究,由笔耕文化传播整理发布。
北京交通大学 硕士学位论文
面向高维数据的特征选择算法研究 姓名:田旷 申请学位级别:硕士 专业:计算机科学与技术 指导教师:景丽萍 201206
j竖立交适太堂亟±』熊± 堂僮论文 虫塞擅墨 中文摘要 互联网时代,网络已成为最大的信息聚集地。特别是因特网的快速发展,,信
息及电子文本数目迅速增加。据统计,互联网中80%的数据是以非结构化的形式
存在的,如Web页面、电子邮件、基因数据、图像等。由于这些数据的半结构化
甚至于无结构化的特点,使得表示这些数据的特征向量高达几万维甚至于几十万 of
维。特征维数的庞大引起了维度灾难 curse
息检索,基因工程,计算机视觉等问题造成了极大的障碍。所以我们引入特征选
择,通过它来移除不相关的特征,检测出冗余的特征,得到一个较小、较优的特
征子集,最终达到维数约简的目的。与此同时提高学习算法的泛化性能和运行效
率,得到更加简单和容易理解的学习模型。 本文关注的焦点是高维数据的特征选择以及基于特征选择的集成聚类。研究
重点主要包括以下两个方面:一、我们提出了一种基于稀疏表示的组合式特征选
择方法。首先我们利用相关性特征选择方法 如IG、EVSC等 去除不相关的特征,
然后引入用稀疏表示的方法来探测冗余特征,结合这两个方式得到最优特征子集。
在多个高维数据集上的实验结果表明,从分类/聚类准确率,特征子集大小等多角
度考察该算法具有良好的综合性能。二、从聚类成员质量和个体差异度两方面出
发,提出了一种适于高维数据的基于特征分层抽样的集成聚类算法。实验表明,
在高维数据集上,我们实现的基于特征分层抽样的集成聚类算法优于基于随
本文关键词:面向高维数据的特征选择算法研究,由笔耕文化传播整理发布。
本文编号:220329
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/220329.html