特征选择与特征学习算法研究
本文选题:特征选择 切入点:特征学习 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文
【摘要】:信息时代的到来导致在机器学习过程中,学习数据趋向于更大规模,更高维度,并且具有复杂噪声,从而给模型的训练与学习提出了挑战。因此,充分地对数据进行分析挖掘,提取出数据中的关键特征和潜在信息,具有重要的研究价值和意义。本文分别从特征选择和特征学习两个方面进行研究。特征选择旨在从数据中利用一定策略选择出原始特征集的一个最优子集。现有的特征选择算法,主要通过考虑特征与目标任务的相关度评估特征的重要性。在监督学习中,考虑特征与目标的统计相关性,在无监督学习中,根据特征与样本结构的契合程度,评估特征在样本集上的区分能力。除了考虑特征的相关度,本文提出结合特征相关度和冗余度的特征选择算法FSIR2,算法基于谱特征选择理论评估特征的相关度,同时考虑特征集内部的冗余度,通过最大化特征与目标的相关度,最小化特征之间的冗余度,进而确定最优特征子集。算法适用于监督学习和无监督学习两种条件。不同于特征选择,特征学习致力于将原始特征集映射到新的特征空间,学习数据的最优表达。现有的特征学习算法主要分为传统学习算法和基于神经网络的算法两种。目前,大量工作基于卷积神经网络、递归神经网络等进行监督特征学习,而充分利用大量低成本的的无监督数据进行特征学习的研究工作不足。本文提出基于卷积自编码网络的特征学习算法SoundAutoEncoder。算法针对视频数据中的音频数据进行无监督的特征学习,一方面利用卷积自编码网络,以充分挖掘音频数据中的有效信息进行特征学习;另一方面利用视频数据中图像数据与音频数据的天然一致性,通过完善的视觉识别模型提取图像数据中的语义信息,进而指导音频数据的特征学习过程。对于FSIR2算法,本文在监督学习和无监督学习两种条件下,在10个数据集上进行实验,测试其所选特征集上的分类、聚类准确率,以及特征之间的冗余度。在与相对表现最好的算法MCFS的对比中,FSIR2算法在聚类结果的准确率、NMI上提升了 4%,在冗余度上降低了 5%,在分类结果的准确率上与MCFS表现相当。对于SoundAutoEncoder算法,本文通过在三个数据集上的场景分类实验,测试其特征学习能力。在分类准确率的比较中,SoundAutoEncoder相比 SoundNet 算法在 DCASE-2016、ESC-10、ESC-50 数据集上分别提升了 0.6%、6.9%、6.3%。
[Abstract]:The advent of the information era resulted in the machine learning process, learning data tend to be larger, the higher dimensions, and it has a complex noise, thus presenting a challenge to the training and learning model. Therefore, analysis of data mining to fully extract the key features in the data and potential information, has important research the value and significance of this paper. Then the feature selection and feature learning to study two aspects. Feature selection is to use some strategies from the data to select an optimal subset of the original feature set. The existing feature selection algorithms, mainly through the importance of the correlation evaluation considering the characteristics features and the target task. In supervised learning, considering the statistical correlation between features and goals, in unsupervised learning, according to the characteristics and structure of the sample fit degree, ability of distinguishing feature in the evaluation sample set. In addition to consider Correlation feature selection algorithm is proposed in this paper, combined with the characteristics of FSIR2 correlation and redundancy, correlation feature selection algorithm based on spectral theory to evaluate characteristics, considering the feature set of redundant internal correlation, by maximizing the features and the target, the redundancy between the minimum feature, and then determine the best feature a subset of algorithm for supervised learning and unsupervised learning conditions. Different from the two kinds of feature selection, feature learning will be dedicated to mapping the original feature set into a new feature space, learning optimal data expression. The existing feature learning algorithm is mainly divided into the traditional learning algorithm and the algorithm based on neural network two. At present, a large number of based on convolutional neural network, recurrent neural networks for supervised feature learning, and make full use of a large number of low cost unsupervised data for the study of job characteristics learning deficiency. In this paper based on the characteristics of self convolution encoding network learning algorithm SoundAutoEncoder. audio data for the video data in the feature of unsupervised learning, on the one hand, using convolution encoding from the network, in order to fully exploit the effective information in audio data for feature learning; using natural consistency of image data and audio data in the video data on the other hand semantic information extraction, image data through visual identification model is perfect, and then guide the characteristics of audio data in the learning process. For the FSIR2 algorithm, based on supervised learning and unsupervised learning under the two conditions, experiments were performed on 10 data sets, the selected feature classification, clustering accuracy. And the redundancy between features. In contrast with the relatively best performance of the MCFS algorithm, the accuracy of FSIR2 algorithm in clustering results, NMI 4% increase in Redundancy is reduced by 5%, and the MCFS performance is quite in the accuracy of the classification results. For SoundAutoEncoder algorithm, this paper through the scene classification experiments on three data sets, to test the characteristics of learning ability. More accurate rate in classification, compared to SoundAutoEncoder SoundNet algorithm in DCASE-2016, ESC-10, ESC-50 data set. Up to 0.6%, 6.9%, 6.3%.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18
【相似文献】
相关期刊论文 前10条
1 江乃雄;蔡民;;综合距离特征选择问题解的存在性与唯一性[J];计算机应用与软件;1992年01期
2 吉小军,李世中,李霆;相关分析在特征选择中的应用[J];测试技术学报;2001年01期
3 贾沛;桑农;唐红卫;;一种改进的类别依赖型特征选择技术[J];计算机与数子工程;2003年06期
4 靖红芳;王斌;杨雅辉;徐燕;;基于类别分布的特征选择框架[J];计算机研究与发展;2009年09期
5 吴洪丽;朱颢东;周瑞琼;;使用特征分辨率和差别对象对集的特征选择[J];计算机工程与应用;2010年16期
6 杨艺;韩德强;韩崇昭;;基于排序融合的特征选择[J];控制与决策;2011年03期
7 李云;;稳定的特征选择研究[J];微型机与应用;2012年15期
8 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期
9 宣国荣;柴佩琪;;基于巴氏距离的特征选择[J];模式识别与人工智能;1996年04期
10 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期
相关会议论文 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申f;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
相关博士学位论文 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
相关硕士学位论文 前10条
1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年
,本文编号:1597046
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1597046.html