混合数据的核密度估计熵与快速的贪心特征选择算法

发布时间：2017-12-29 07:10

本文关键词：混合数据的核密度估计熵与快速的贪心特征选择算法　出处：《浙江大学》2017年硕士论文　论文类型：学位论文

【摘要】：在海量数据的时代,特征选择作为数据挖掘、模式识别、机器学习的关键步骤,在降低维度、提升算法速度与精确度等方面发挥着越来越重要的作用。信息论中熵和互信息等概念在特征选择算法中占据重要的地位,具有无需先验知识检测非线性关系、抗噪声干扰等优点。但传统基于信息论的特征选择方法主要针对离散特征,而现实世界存在着大量连续特征、混合特征的数据。离散化是一种常见的解决方法,即将连续特征转换为离散特征,再间接地计算信息论中的概率值,这种方法可能导致原始信息的损失。核密度估计(简写KDE)在统计学理论中用于对随机变量的概率密度函数进行无参估计,部分研究者由此提出了基于KDE的条件熵,并应用于特征选择算法,实验结果证明这类方法具有较好的效果。但现有研究中,KDE熵公式较少且局限于连续特征,KDE熵计算用时较长、效率较低,且在高维下更加严重。这些问题导致基于KDE熵的特征选择算法的种类较少、速度非常慢,难以被广泛应用。针对以上问题,本文提出混合KDE熵及基于混合KDE条件熵的快速贪心特征选择算法,并通过理论分析和实验结果显示算法的有效性和高效性。本文的主要成果包括:·提出较完整的连续特征KDE熵,提出混合特征的KDE熵,并实现离散熵和连续KDE熵的统一。·提出一个基于混合特征KDE条件熵的贪心特征选择算法,实验结果表明该算法具有有效性。·提出具有增量特性的核矩阵、数据向量、划分矩阵和核划分矩阵的新概念,并基于它们推导出与KDE熵定义式等价的KDE熵矩阵式。·提出一个快速的基于混合特征KDE条件熵矩阵式的特征选择算法,它在每一轮增量地计算离散部分和连续部分数据,并适时压缩,不断累积矩阵式的速度优势,实验结果表明该算法具有高效性。
[Abstract]:......
【学位授予单位】：浙江大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP301.6

【参考文献】