特征提取与集成学习算法的研究及应用
本文关键词:特征提取与集成学习算法的研究及应用,,由笔耕文化传播整理发布。
【摘要】:特征提取与集成学习算法一直是当前机器学习中的研究热点,在多个领域有着成功的应用。但集成学习技术还没有成熟,在研究过程中仍然存在着众多待解决的问题,在应用上也和人们期待的水平相去甚远。 本课题对特征提取与集成学习进行了深入地研究,一方面分析了现有方法的优劣,另一方面,研究了影响特征提取与集成学习算法性能的各个因素,这为进一步改进特征提取与集成学习做好铺垫。在现有算法的研究基础上,提出了新的特征提取与集成学习算法。本论文的主要研究内容和创新点如下: 1)核主成分分析与多层感知器神经网络是流行的特征提取算法,但这些算法存在效率低下与易陷于局部最优解等问题。针对KPCA与MLP算法存在的问题,提出了一种新颖的特征提取算法—基于最大间隔超平面的增强的特征提取算法。该算法独立于输入样本的概率分布,通过采用隔间最大化且两两正交的最大分割超平面,将输入样本映射到超平面的法线所构成的子空间中,实现输入样本的特征提取。在对现实世界数据集wine与AR的特征提取的实验表明,基于最大间隔超平面的增强特征提取算法在执行效率,识别准确率方面均超出了KPCA与MLP的执行效率与识别准确率。最后对这些实验结果进行了解释。 2)特征提取技术的应用依赖于数据的固有属性,研究了当前流行的特征提取技术,并针对这些特征提取技术所存在的弱点,提出了一种新颖的特征提取算法—强健特征提取算法,该算法分为两个阶段,以同时最大化不同类之间的距离与最小化类内距离为目标。实验表明,在用强健特征提取算法对现实世界数据集进行特征提取时,所表现出的性能在分类精度与效率的指标上均能达到最优。 3)传统的集成学习算法存在无法依据数据的特点进行分类的缺陷。在此基础上,首先用间隔分布刻画数据的特点,然后将其引入到标准的支持向量机中,并依据数据分布特点更新支持向量机内核函数,对最初的内核函数重新进行保形调整,增加分类边界附近的Riemann度量,增大不同类之间的分类间隔,实现标准支持向量机算法的改进。将此改进的SVM算法作为基学习器,构建集成学习算法,提出了基于数据特点的受监督集成学习算法—改进支持向量机的集成学习算法。最后通过实验证实了所提出的集成学习算法的优越性。 4)当前流行的聚类集成学习算法存在缺陷,即无法依据不同数据集的不同特点,给出恰当的处理方案,提出了一种新颖的聚类集成学习算法—基于数据特点的增强聚类集成学习算法,该算法由基聚类器的生成,基聚类器的选择与共识函数构成。该算法依据数据的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,产生最终聚类结果。实验中,同其他算法相比,所提出算法的聚类误差始终最低。在增加候基聚类器的情况下,所提出算法的NMI值始终高于用于比较算法的NMI值。因此,同这些流行的聚类集成学习算法相比,所提出算法的聚类精度最高,可伸缩性最强。所提出的算法能够依据数据集的不同的特性进行处理,是一种很有前途的自适应聚类集成算法。 5)将特征提取与集成学习算法的应用到入侵检测中,详细分析了入侵检测数据集—KDDCUP99。在对KDDCUP99做了适当的处理后,成功将所提出的特征提取与集成学习算法应用到入侵检测中,并提出了一种新颖的入侵检测模型—集成入侵检测模型。最后比较了经典的集成学习算法和本论文提出的基于集成学习算法的集成入侵检测模型在KDDCUP99入侵检测数据集上的检测效果。
【关键词】:特征提取 最大间隔 集成学习算法 分类 入侵检测
【学位授予单位】:北京科技大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181
【目录】:
- 致谢4-5
- 摘要5-7
- Abstract7-14
- 插图和附表清单14-16
- 缩写清单16-17
- 1 引言17-31
- 1.1 课题的背景及应用17-18
- 1.2 文献综述18-26
- 1.2.1 集成学习研究现状18-23
- 1.2.2 集成学习算法存在的问题23-25
- 1.2.3 集成学习与特征提取25-26
- 1.2.4 特征提取存在的问题26
- 1.3 论文的主要研究工作26-28
- 1.4 论文的创新之处28-29
- 1.5 论文的组织结构29-31
- 2 基于最大间隔超平面的增强特征提取算法31-50
- 2.1 问题提出31
- 2.2 相关研究31-32
- 2.3 特征提取问题与算法32-36
- 2.3.1 KPCA特征提取算法33
- 2.3.2 MLP特征提取算法33-34
- 2.3.3 多维尺度算法34
- 2.3.4 ISOMAP算法34-35
- 2.3.5 最大方差展开算法35
- 2.3.6 扩散映射框架35
- 2.3.7 局部线性嵌入35-36
- 2.4 增强的特征提取方法36-39
- 2.5 仿真实验39-49
- 2.5.1 实验一39-43
- 2.5.2 实验二43-49
- 2.6 仿真实验49-50
- 3 强健特征提取算法50-62
- 3.1 问题的提出50
- 3.2 相关研究50-52
- 3.3 强健特征提取方法52-55
- 3.4 仿真实验55-61
- 3.5 本章小结61-62
- 4 基于数据特点的改进SVM集成学习算法62-77
- 4.1 问题提出62
- 4.2 相关研究62-63
- 4.3 支持向量机SVM63-66
- 4.3.1 支持向量63-64
- 4.3.2 内核函数的几何特性64-66
- 4.4 SVM的间隔分布66-69
- 4.5 改进的SVM算法69-70
- 4.6 仿真实验70-75
- 4.7 本章小结75-77
- 5 基于数据特点的增强聚类集成学习算法77-88
- 5.1 问题提出77
- 5.2 相关研究77-78
- 5.3 聚类集成问题78-79
- 5.4 ECECD算法79-82
- 5.4.1 基聚类器生成79
- 5.4.2 基聚类器选择79-81
- 5.4.3 共识函数81-82
- 5.4.4 ECECD算法步骤82
- 5.5 仿真实验82-87
- 5.6 本章小结87-88
- 6 特征提取与集成学习算法在入侵检测中的应用88-101
- 6.1 问题的提出88
- 6.2 相关研究88-90
- 6.3 整合分类器90-93
- 6.3.1 决策轮廓矩阵90
- 6.3.2 静态整合器90-91
- 6.3.3 动态整合器91-92
- 6.3.4 独立特征子集整合器92-93
- 6.4 集成IDS模型93-96
- 6.5 入侵检测实验96-100
- 6.5.1 数据预处理96
- 6.5.2 实验结果96-100
- 6.6 本章小结100-101
- 7 结论与展望101-105
- 7.1 结论101-103
- 7.2 展望103-105
- 参考文献105-118
- 作者简历及在学研究成果118-121
- 学位论文数据集121
【共引文献】
中国期刊全文数据库 前10条
1 韩敏;刘贲;;一种改进的旋转森林分类算法[J];电子与信息学报;2013年12期
2 XU Ben-zhu;ZHANG Xing-ling;;Flexible Personnel Scheduling in the Parallel Environment[J];Computer Aided Drafting,Design and Manufacturing;2014年02期
3 雷苗;彭宇;彭喜元;;一种面向混沌时间序列预测的虚拟特征提取算法[J];电子与信息学报;2014年10期
4 程文冬;付锐;张文霞;;动态光照下驾驶人面部特征识别算法与试验研究[J];公路交通科技;2014年10期
5 徐鑫;;嵌入拒识代价的投票式极限学习机(英文)[J];安徽大学学报(自然科学版);2014年06期
6 许良凤;李艳秋;胡敏;刘盛中;王晓华;;基于I-DCV的人脸识别方法[J];电子测量与仪器学报;2015年01期
7 琚春华;邹江波;;基于信息熵差异性度量的数据流增量集成分类算法[J];电信科学;2015年02期
8 于博;王力;牛铮;;基于中性集对北川羌族自治县新城人工建设用地的识别[J];国土资源遥感;2015年01期
9 汤井田;曹扬;肖嘉莹;郭曲练;;Predication of plasma concentration of remifentanil based on Elman neural network[J];Journal of Central South University;2013年11期
10 张利;刘文生;;基于两种遗传算法的柔性制造线仿真优化[J];武汉工业学院学报;2013年03期
本文关键词:特征提取与集成学习算法的研究及应用,由笔耕文化传播整理发布。
本文编号:326984
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/326984.html