基于特征选择的数据降维
发布时间:2021-06-24 04:09
特征选择是数据降维中最常用的手段,与之相对应的是特征生成,二者共同构成数据降维的两种主要方式。数据降维是应用统计、数据挖掘、机器学习、模式识别等领域中及其关键的问题。特征选择有利于降低数据处理的时间复杂度和计算机存储的空间复杂度,还可以提高学习模型的准确性、鲁棒性以及泛化能力。本文从监督学习和非监督学习两个方面对特征选择算法进行分类和描述,主要利用信息论中关键概念互信息设计特征选择算法。本文的主要内容包括:(1)在监督学习的特征选择中,利用互信息作为工具,讲述了Parzen Window特征选择以及最大相关-最小冗余(MRMR)特征选择算法。(2)在非监督学习的特征选择中,我们利用邻域互信息作为特征间的相似性度量,新设计了一种,基于特征聚类的特征选择算法。且该算法可直接处理混合数据(同时含有连续型特征和种类特征),而不需要做种类数据的数值化,也不需要做连续数据的离散化处理。(3)将邻域互信息应用于Parzen Window和MRMR特征选择,解决基于监督学习混合数据的特征选择。(4)利用UCI机器学习网页上的数据集对算法进行测试和比较,并应用特征选择算法分析来自中国统计年鉴2013上有...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题的意义
1.2 国内外研究现状
1.3 目前研究存在的不足
1.4 本文的主要内容与结构
1.5 本章总结
2 特征选择的定义和必要性
2.1 特征选择的定义
2.2 特征选择的步骤
2.3 特征选择的必要性
2.4 本章总结
3 基于监督学习的特征选择
3.1 熵(entropy)和互信息(mutual information)
3.2 互信息的估计和特征选择
3.3 本章总结
4 基于非监督学习的特征选择
4.1 聚类
4.2 相似性度量(similarity measure)
4.3 邻域互信息(Neighborhood Mutual Information, NMI)
4.4 基于NMI的混合数据非监督特征选择
4.5 本章总结
5 实验设计和算法比较
5.1 数据集以及评价标准
5.2 算法比较
5.3 统计数据实例分析
5.4 本章总结
6 总结与展望
6.1 全文总结
6.2 本文的不足与未来的展望
致谢
参考文献
附表
【参考文献】:
期刊论文
[1]一种基于新的特征选择的海量网络文本挖掘算法研究[J]. 张人上,曲开社. 计算机应用研究. 2014(09)
[2]基于支持向量机的特征选择算法综述[J]. 代琨,于宏毅,马学刚,李青. 信息工程大学学报. 2014(01)
[3]结合邻域相关影像与最大相关性最小冗余性特征选择的面向对象变化检测[J]. 邹利东,潘耀忠,朱文泉,周公器,李宜展. 中国图象图形学报. 2014(01)
[4]稀疏特征选择在过程工业故障诊断中的应用[J]. 于春梅. 计算机工程与应用. 2014(18)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]基于模拟退火的多标记数据特征选择[J]. 张永波,游录金,陈杰新. 计算机工程与设计. 2011(07)
[7]一种特征选择的动态规划方法[J]. 章新华. 自动化学报. 1998(05)
[8]一种最优特征集的选择算法[J]. 朱明,王俊普,蔡庆生. 计算机研究与发展. 1998(09)
[9]最优特征子集选择问题[J]. 陈彬,洪家荣,王亚东. 计算机学报. 1997(02)
本文编号:3246337
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题的意义
1.2 国内外研究现状
1.3 目前研究存在的不足
1.4 本文的主要内容与结构
1.5 本章总结
2 特征选择的定义和必要性
2.1 特征选择的定义
2.2 特征选择的步骤
2.3 特征选择的必要性
2.4 本章总结
3 基于监督学习的特征选择
3.1 熵(entropy)和互信息(mutual information)
3.2 互信息的估计和特征选择
3.3 本章总结
4 基于非监督学习的特征选择
4.1 聚类
4.2 相似性度量(similarity measure)
4.3 邻域互信息(Neighborhood Mutual Information, NMI)
4.4 基于NMI的混合数据非监督特征选择
4.5 本章总结
5 实验设计和算法比较
5.1 数据集以及评价标准
5.2 算法比较
5.3 统计数据实例分析
5.4 本章总结
6 总结与展望
6.1 全文总结
6.2 本文的不足与未来的展望
致谢
参考文献
附表
【参考文献】:
期刊论文
[1]一种基于新的特征选择的海量网络文本挖掘算法研究[J]. 张人上,曲开社. 计算机应用研究. 2014(09)
[2]基于支持向量机的特征选择算法综述[J]. 代琨,于宏毅,马学刚,李青. 信息工程大学学报. 2014(01)
[3]结合邻域相关影像与最大相关性最小冗余性特征选择的面向对象变化检测[J]. 邹利东,潘耀忠,朱文泉,周公器,李宜展. 中国图象图形学报. 2014(01)
[4]稀疏特征选择在过程工业故障诊断中的应用[J]. 于春梅. 计算机工程与应用. 2014(18)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]基于模拟退火的多标记数据特征选择[J]. 张永波,游录金,陈杰新. 计算机工程与设计. 2011(07)
[7]一种特征选择的动态规划方法[J]. 章新华. 自动化学报. 1998(05)
[8]一种最优特征集的选择算法[J]. 朱明,王俊普,蔡庆生. 计算机研究与发展. 1998(09)
[9]最优特征子集选择问题[J]. 陈彬,洪家荣,王亚东. 计算机学报. 1997(02)
本文编号:3246337
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3246337.html