基于最大权重最小冗余准则的特征选择方法研究
本文关键词:基于最大权重最小冗余准则的特征选择方法研究
【摘要】:近几年以来,随着现代科学技术的飞速发展,数据量呈现一种爆炸式增长。而伴随数据量增长的同时,数据中包含的不相关和冗余信息也增多,给已有的机器学习算法带来了严峻的挑战。因此,迫切需要适应海量数据的准确性和运算效率等综合性能较好的特征选择方法。为此,本文对高维数据的特征选择展开了进一步的研究。首先,针对现有特征选择方法中基于不同的类间散度和类内散度的特征权重度量方法的缺陷,我们提出一种新的度量特征权重的函数,这种度量具有一定的泛化特征。并进一步讨论该形式与其它基于类间散度和类内散度准则的特征权重度量的关系。其次,针对现有特征选择方法中相关性和冗余度评价方法缺乏多样化以及最佳特征个数难以确定的问题,本文提出基于最大平均权重最小平均冗余准则的特征选择方法(MAWMAR方法)。一方面,在特征权重计算过程中采用一般化的特征权重评价函数,使得特征选择过程中不仅便于理解和分析,同时适用于处理半监督和有监督的问题。另一方面,通过建立最大化特征相关性和最小化特征间冗余信息的分式规划模型,该方法不仅有效地权衡了特征相关性和冗余性这两个相互冲突的目标,同时实现了最优特征个数的选择。实验结果表明MAWNAR比其它特征选择方法得到了更小更优的特征子集。再次,针对基于最大平均权重最小平均冗余准则的特征选择方法容易受特征个数的影响,本文提出基于最大总权重最小冗余准则的特征选择方法(MaToWMiR方法),该方法综合考虑了特征相关性和特征间冗余性进行无关冗余特征的剔除。MaToWM,MiR不仅保持了使用一般化的特征权重度量的优点,同时降低了特征个数对特征选择的影响。实验结果表明MaToWMiR有效地去除了无关冗余特征,降维的同时提高了分类精度。最后,为了考察MAWMAR和MaToWMiR的应用范围,对两种方法下的模型做了对比分析。首先,利用分支定界法求解MAWMAR和MaToWmIR方法下的模型,通过比较分类准确率和选择出的特征个数,说明了两种方法在不同的数据集上具有各自的优势,同时分析了影响上述结果的主要原因。其次,针对精确算法计算效率低的问题,利用求解精度较高的遗传算法求解模型。数值实验表明,不论是利用分支定界法还是遗传算法求解,MAWMAR和MaToWMiR在具有相似特点(例如相似的特征权重分布和冗余度分布)的数据集上占有相同的优势。
【关键词】:特征选择 过滤式方法 类间散度 类内散度
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F224
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-16
- 1.1 研究背景9-10
- 1.2 国内外研究现状10-12
- 1.3 研究内容和论文结构12-16
- 2 基于最大平均权重最小平均冗余准则的特征选择方法16-43
- 2.1 符号说明16-17
- 2.2 特征权重评价函数及性质17-18
- 2.3 MAWMAR方法18-30
- 2.3.1 模型建立19-20
- 2.3.2 模型转化20-29
- 2.3.3 MAWMAR算法实现29-30
- 2.4 数值实验30-42
- 2.4.1 测试数据集31-32
- 2.4.2 实验设置32-33
- 2.4.3 参数的选择33-34
- 2.4.4 实验结果及讨论34-42
- 2.5 本章小结42-43
- 3 基于最大总权重最小冗余准则的特征选择方法43-61
- 3.1 符号说明43
- 3.2 MaTo WMiR方法43-48
- 3.2.1 模型建立43-45
- 3.2.2 模型转化45-47
- 3.2.3 MaTo WMiR算法实现47-48
- 3.3 数值实验48-60
- 3.3.1 测试数据集49-51
- 3.3.2 实验设置51
- 3.3.3 参数的选择51-52
- 3.3.4 实验结果与讨论52-60
- 3.4 本章小结60-61
- 4 模型对比分析61-75
- 4.1 基于分支定界法求解模型的对比分析61-68
- 4.1.1 测试数据集61
- 4.1.2 实验设置61-62
- 4.1.3 实验结果分析62-64
- 4.1.4 原因分析64-68
- 4.2 基于遗传算法求解模型的对比分析68-74
- 4.2.1 测试数据集69
- 4.2.2 实验设置69-70
- 4.2.3 实验结果分析70-72
- 4.2.4 原因分析72-74
- 4.3 本章小结74-75
- 结论75-77
- 参考文献77-81
- 攻读硕士学位期间发表学术论文情况81-82
- 致谢82-83
【相似文献】
中国期刊全文数据库 前2条
1 刘扬;刘伟江;;特征选择方法在信用评估指标选取中的应用[J];数理统计与管理;2006年06期
2 ;[J];;年期
中国重要会议论文全文数据库 前6条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年
2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
3 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年
4 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
5 刘明霞;属性学习若干重要问题的研究及应用[D];南京航空航天大学;2015年
中国硕士学位论文全文数据库 前10条
1 曹晋;基于SVDD的特征选择方法研究及其应用[D];苏州大学;2015年
2 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
3 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
4 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
5 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
6 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
7 王丹;特征选择算法研究及其在异常检测中的应用[D];电子科技大学;2014年
8 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
9 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
10 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
,本文编号:989579
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/989579.html