混合数据的核密度估计熵与快速的贪心特征选择算法

发布时间:2017-12-29 07:10

  本文关键词:混合数据的核密度估计熵与快速的贪心特征选择算法 出处:《浙江大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 核密度估计 混合数据 特征选择


【摘要】:在海量数据的时代,特征选择作为数据挖掘、模式识别、机器学习的关键步骤,在降低维度、提升算法速度与精确度等方面发挥着越来越重要的作用。信息论中熵和互信息等概念在特征选择算法中占据重要的地位,具有无需先验知识检测非线性关系、抗噪声干扰等优点。但传统基于信息论的特征选择方法主要针对离散特征,而现实世界存在着大量连续特征、混合特征的数据。离散化是一种常见的解决方法,即将连续特征转换为离散特征,再间接地计算信息论中的概率值,这种方法可能导致原始信息的损失。核密度估计(简写KDE)在统计学理论中用于对随机变量的概率密度函数进行无参估计,部分研究者由此提出了基于KDE的条件熵,并应用于特征选择算法,实验结果证明这类方法具有较好的效果。但现有研究中,KDE熵公式较少且局限于连续特征,KDE熵计算用时较长、效率较低,且在高维下更加严重。这些问题导致基于KDE熵的特征选择算法的种类较少、速度非常慢,难以被广泛应用。针对以上问题,本文提出混合KDE熵及基于混合KDE条件熵的快速贪心特征选择算法,并通过理论分析和实验结果显示算法的有效性和高效性。本文的主要成果包括:·提出较完整的连续特征KDE熵,提出混合特征的KDE熵,并实现离散熵和连续KDE熵的统一。·提出一个基于混合特征KDE条件熵的贪心特征选择算法,实验结果表明该算法具有有效性。·提出具有增量特性的核矩阵、数据向量、划分矩阵和核划分矩阵的新概念,并基于它们推导出与KDE熵定义式等价的KDE熵矩阵式。·提出一个快速的基于混合特征KDE条件熵矩阵式的特征选择算法,它在每一轮增量地计算离散部分和连续部分数据,并适时压缩,不断累积矩阵式的速度优势,实验结果表明该算法具有高效性。
[Abstract]:......
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP301.6

【参考文献】

相关期刊论文 前3条

1 张国亮;沈慧;石峰;霍迎秋;;大型实对称矩阵分块迭代求逆算法[J];无线互联科技;2015年06期

2 刘忠宝;王士同;;基于熵理论和核密度估计的最大间隔学习机[J];电子与信息学报;2011年09期

3 李存华,孙志挥,陈耿,胡云;核密度估计及其在聚类算法构造中的应用[J];计算机研究与发展;2004年10期

相关硕士学位论文 前1条

1 刘海燕;基于信息论的特征选择算法研究[D];复旦大学;2012年



本文编号:1349255

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1349255.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户213fe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com