基于信息粒化的特征选择算法研究
本文选题:特征选择 + 信息粒化 ; 参考:《闽南师范大学》2016年硕士论文
【摘要】:特征选择作为数据预处理的关键手段,是数据挖掘、模式识别和机器学习等领域的重要研究课题之一。它是指在原始数据中删除大量无关和冗余的特征,找到一组包含原始特征空间的全部或大部分分类信息的特征子集的过程。对于高维数据,借鉴表征整体的思想,将数据集由一个大信息粒细化为多个可有效表征其整体的小信息粒,有助于从多层次、多视觉分析数据。因此,本文利用信息粒化的表征机制,将其运用于特征选择中,并构造了一系列的基于信息粒化的特征选择模型。本文首先介绍特征选择问题的研究现状,重点讨论了邻域粒化,大间隔和局部子空间模型。然后,针对数据中冗余和无关特征的消除问题,以粒化为基础,分别从样本粒化、特征粒化以及样本特征双重粒化三个角度,展开一系列的研究来解决不同的数据分类预测问题,本文主要的研究成果有:(1)从样本粒化角度出发,结合特征本身具有质量这一情况,提出了基于特征质量的特征选择算法。该算法根据信息熵和大间隔分别定义了特征质量和最近邻,并利用该近邻实现了样本的粒化。实验从特征子集的紧凑性,分类精度,以及分类精度随着特征数目的变化情况这三方面对模型进行了验证,结果表明基于特征质量可以选择一组有效的特征子集。(2)从样本粒化角度出发,采用邻域关系,提出了基于最大近邻粗糙逼近的特征选择算法MNNRS。该算法以邻域粗糙集的特征选择算法NRS为框架,利用大间隔定义了最大近邻来粒化样本,并修正了正域的计算方法。MNNRS算法保留了NRS算法的优点,且有效降低了计算复杂性,提高了算法的分类性能。(3)从特征粒化角度出发,针对多标记数据集的高维性和标记与特征之间存在的类属关系,提出了基于局部子空间的多标记特征选择算法。该算法以局部子空间模型为基础,结合信息熵理论,鉴别了多标记中对标记集合相对次要,但却不可遗漏的特征。实验表明该算法能有效降低计算复杂性,提高分类性能,增强选择策略的灵活性。(4)从样本粒化和特征粒化角度出发,针对高维小样本数据存在高维性和易导致过拟合的问题,提出了一种启发式的局部随机特征选择方法。该算法利用局部子空间模型来粒化特征,结合样本的邻域粒化,以提高分类模型的分类精度,降低计算代价,并在一定程度上解决了过拟合问题。
[Abstract]:As a key means of data preprocessing, feature selection is one of the important research topics in data mining, pattern recognition and machine learning. It refers to the process of removing a large number of irrelevant and redundant features from the original data and finding a set of feature subsets containing all or most of the classification information in the original feature space. For high-dimensional data, using the idea of representing the whole, the data set is refined from one large information particle to several small information grains that can effectively represent the whole of the data, which is helpful to analyze the data from multi-level and multi-vision. Therefore, this paper uses the representation mechanism of information granulation, applies it to feature selection, and constructs a series of feature selection models based on information granulation. In this paper, the current situation of feature selection is introduced, and the models of neighborhood granulation, large spacing and local subspace are discussed. Then, aiming at the problem of eliminating redundant and irrelevant features in the data, the granulation is based on three aspects: sample granulation, feature granulation and sample feature double granulation. A series of studies have been carried out to solve the problem of different data classification and prediction. In this paper, a feature selection algorithm based on feature quality is proposed from the point of view of sample granulation and considering the fact that the feature itself has quality. The feature quality and nearest neighbor are defined according to information entropy and large interval, respectively, and the granulation of samples is realized by using the nearest neighbor. The experiment verifies the model from three aspects: the compactness of feature subset, the classification accuracy, and the variation of classification accuracy with the number of features. The results show that a set of effective feature subsets can be selected based on feature quality. From the point of view of sample granulation, a feature selection algorithm based on maximum nearest neighbor rough approximation (MNNRS) is proposed. Based on the feature selection algorithm of neighborhood rough sets (NRS), this algorithm defines the maximum nearest neighbor granulated samples with large intervals, and modifies the positive domain computing method. MNNRS algorithm retains the advantages of NRS algorithm and reduces the computational complexity effectively. The classification performance of the algorithm is improved. (3) from the point of view of feature granulation, a multi-label feature selection algorithm based on local subspace is proposed in view of the high dimension of multi-label data set and the class relationship between label and feature. Based on the local subspace model and the information entropy theory, the algorithm identifies the features of multiple markers which are relatively secondary to the set of markers, but which cannot be omitted. Experiments show that the algorithm can effectively reduce the computational complexity, improve the classification performance, enhance the flexibility of the selection strategy. (4) from the point of view of sample granulation and feature granulation, the algorithm can solve the problems of high dimension and easy over-fitting of high-dimensional and small-sample data. A heuristic local random feature selection method is proposed. The algorithm uses local subspace model to granulate the feature and combines the neighborhood granulation of the sample to improve the classification accuracy of the classification model and reduce the computational cost and solve the problem of over-fitting to a certain extent.
【学位授予单位】:闽南师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18;TP311.13
【相似文献】
相关期刊论文 前10条
1 李鸿;;粒化思维研究[J];滁州学院学报;2010年05期
2 修保新,任双桥,张维明;基于模糊信息粒化理论的图像插值方法[J];国防科技大学学报;2004年03期
3 赵兴永;陈庆凯;李传红;;高炉渣处理粒化轮损坏原因分析及改进[J];科技传播;2010年21期
4 张燕姑;广义模糊粒化本体论在知识工程中的应用——模糊理论本质研究[J];计算机工程与应用;2005年01期
5 闫林;宋金朋;;数据集的粒化树及其建模应用[J];计算机科学;2014年03期
6 刘生福;信息的粒化与划分(覆盖)解粒[J];计算机工程与应用;2004年02期
7 罗敏;;粒计算及其研究现状[J];计算机与现代化;2007年01期
8 王晓丹;田永梅;;粒计算与WEB信息粒化[J];数字技术与应用;2011年09期
9 陈艳艳;马杰伟;赵海涛;杨国华;;高炉渣离心粒化数值仿真与试验研究[J];计算机仿真;2013年02期
10 李鸿;;粒计算的基本要素研究[J];计算机技术与发展;2009年11期
相关会议论文 前8条
1 闫兆民;周扬民;杨志远;仪垂杰;;离心粒化理论与设备[A];第十一届全国MOCVD学术会议论文集[C];2010年
2 薛青;徐文超;郑长伟;刘永红;;城市作战仿真中战场环境信息粒化模型研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
3 仇志国;;青钢图拉法粒化渣工艺的应用与改进[A];2009年山东省炼铁学术交流会论文集[C];2009年
4 李顺;张功多;孟庆波;谢国威;;熔渣离心粒化余热初次回收实验研究[A];2013年全国冶金能源环保生产技术会论文集[C];2013年
5 董志鹏;林东;樊促军;;转炉炉渣粒化工艺在本钢的应用[A];2005中国钢铁年会论文集(第2卷)[C];2005年
6 朱文渊;李先旺;李社锋;;高炉熔渣干式粒化及热能回收技术及工业应用分析[A];2012年全国冶金安全环保暨能效优化学术交流会论文集[C];2012年
7 刘军祥;于庆波;窦晨曦;胡贤忠;;高炉渣转杯式粒化的实验研究[A];2008全国能源与热工学术年会论文集[C];2008年
8 代劲;何中市;;基于云模型的快速信息粒化算法[A];第五届全国信息检索学术会议论文集[C];2009年
相关重要报纸文章 前8条
1 林立恒;熔渣干法粒化工艺技术经济评估[N];世界金属导报;2013年
2 罗锡兰 罗恒志;达钢粒化渣工程竣工投产[N];中国冶金报;2003年
3 太钢设计院 郝正荣 太钢计控处 郝颖;节水、节电的高炉渣轮法粒化装置[N];山西科技报;2000年
4 ;高炉炉渣粒化系统[N];世界金属导报;2003年
5 崔艳萍;INBA渣粒化系统-环境过程控制[N];世界金属导报;2007年
6 刘谭t,
本文编号:1776085
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1776085.html