混合数据的核密度估计熵与快速的贪心特征选择算法
发布时间:2017-12-29 07:10
本文关键词:混合数据的核密度估计熵与快速的贪心特征选择算法 出处:《浙江大学》2017年硕士论文 论文类型:学位论文
【摘要】:在海量数据的时代,特征选择作为数据挖掘、模式识别、机器学习的关键步骤,在降低维度、提升算法速度与精确度等方面发挥着越来越重要的作用。信息论中熵和互信息等概念在特征选择算法中占据重要的地位,具有无需先验知识检测非线性关系、抗噪声干扰等优点。但传统基于信息论的特征选择方法主要针对离散特征,而现实世界存在着大量连续特征、混合特征的数据。离散化是一种常见的解决方法,即将连续特征转换为离散特征,再间接地计算信息论中的概率值,这种方法可能导致原始信息的损失。核密度估计(简写KDE)在统计学理论中用于对随机变量的概率密度函数进行无参估计,部分研究者由此提出了基于KDE的条件熵,并应用于特征选择算法,实验结果证明这类方法具有较好的效果。但现有研究中,KDE熵公式较少且局限于连续特征,KDE熵计算用时较长、效率较低,且在高维下更加严重。这些问题导致基于KDE熵的特征选择算法的种类较少、速度非常慢,难以被广泛应用。针对以上问题,本文提出混合KDE熵及基于混合KDE条件熵的快速贪心特征选择算法,并通过理论分析和实验结果显示算法的有效性和高效性。本文的主要成果包括:·提出较完整的连续特征KDE熵,提出混合特征的KDE熵,并实现离散熵和连续KDE熵的统一。·提出一个基于混合特征KDE条件熵的贪心特征选择算法,实验结果表明该算法具有有效性。·提出具有增量特性的核矩阵、数据向量、划分矩阵和核划分矩阵的新概念,并基于它们推导出与KDE熵定义式等价的KDE熵矩阵式。·提出一个快速的基于混合特征KDE条件熵矩阵式的特征选择算法,它在每一轮增量地计算离散部分和连续部分数据,并适时压缩,不断累积矩阵式的速度优势,实验结果表明该算法具有高效性。
[Abstract]:......
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP301.6
【参考文献】
相关期刊论文 前3条
1 张国亮;沈慧;石峰;霍迎秋;;大型实对称矩阵分块迭代求逆算法[J];无线互联科技;2015年06期
2 刘忠宝;王士同;;基于熵理论和核密度估计的最大间隔学习机[J];电子与信息学报;2011年09期
3 李存华,孙志挥,陈耿,胡云;核密度估计及其在聚类算法构造中的应用[J];计算机研究与发展;2004年10期
相关硕士学位论文 前1条
1 刘海燕;基于信息论的特征选择算法研究[D];复旦大学;2012年
,本文编号:1349255
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1349255.html