面向大数据的高效特征选择与学习算法研究
发布时间:2017-05-25 04:01
本文关键词:面向大数据的高效特征选择与学习算法研究,,由笔耕文化传播整理发布。
【摘要】:近年来,随着互联网、物联网、云计算、三网融合等IT与通讯技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,信息社会已经进入了“大数据”时代。在当前大数据环境下,挖掘其中蕴含的知识以指导实际生产和具体应用,特征选择和学习的重要性更加凸显,不仅可以有效解决“维数灾难”,缓解“信息丰富、知识贫乏”现状,降低复杂度;而且可以更好地认识和理解数据。本文面向大数据,开展了并行大规模特征选择、复杂数据融合与高效学习、基于深度学习的特征表示模型、算法及应用研究。主要研究工作和创新概述分为以下四个部分。第一部分:并行大规模特征选择(第3章)构建了一个统一的并行大规模特征选择框架,进而提出了相应的模型并行方法、数据并行方法和模型-数据并行方法。以启发式特征选择为研究对象,分析其核心是特征重要度的计算,进而给出了统一的特征评价函数表示方法。基于该框架,给出了四种典型特征评价函数的分治方法,并分别设计了基于MapReduce和Spark的并行大规模特征选择算法。进一步引入粒计算理论对特征选择过程进行优化加速,并结合模型-数据并行方法,提出了PLAR-MDP算法。最后用UCI公共数据集、天文大数据集等在大数据计算平台Hadoop和Spark对算法的有效性进行了评测、分析和比较,验证了算法的有效性,同时说明了模型并行、数据并行和粒计算方法的有机结合可以最大限度提高数据处理性能。第二部分:复杂数据融合及高效学习算法(第4章)给出了复合信息系统的定义,进而扩展了粗糙集模型,提出了复合粗糙集模型。该模型可以同时处理多种数据类型,为复杂数据融合提供了一个新的方法。概念近似是基于粗糙集模型的特征选择算法的核心步骤,为有效计算概念近似,通过引入基本向量的概念,提出了复合粗糙集模型中近似集的矩阵表示方法,并设计了基于矩阵的近似集计算的批处理算法以及基于单GPU和GPU集群的并行算法。最后,利用人工数据集和UCI公共数据集进行实验评测,验证了算法的有效性,而且实验结果表明在GPU集群上算法的加速比高,性能得到了大幅度提升。第三部分:基于深度学习的特征表示模型(第5章)提出了基于深度学习的特征表示模型:SUGAR。该模型包括主网络、辅助网络和桥三部分,可以同时从标记数据和无标记数据中学习数据表征。其中主网络和辅助网络分别采用自编码器和哈希学习方法来构建,并应用L1正则惩罚对参数进行约束以获得鲁棒性强的特征,桥的作用是使得主网络和辅助网络参数尽可能接近。设计了基于小批次随机梯度下降的SUGAR模型训练算法。分别结合DAE和CAE模型,给出了"SUGAR with DAE"和"SUGAR with CAE'扩展模型。进而采用堆栈方式将多个SUGAR模型累加,建立了基于SUGAR的深度学习模型:DeepSUGAR。最后在经典的数字分类问题和8个深度学习基准数据集对算法进行评测、分析和比较,验证了算法的有效性,说明了所提出的深度学习模型可以产生更好的、鲁棒性更强的特征表示,有效提高分类精度。第四部分:特征学习模型在天文光谱识别中的应用(第6章)回顾了天文恒星光谱的特点及传统处理方法,进而根据恒星光谱的特点,提出了基于深度学习的特征表示方法LLDL。 LLDL模型包括多个局部线性Maxout网络作为其隐含层,并应用Dropout技术来正则化Maxout网络。进而设计了基于随机梯度下降和Momentum的LLDL模型训练算法,并在多核CPU和GPU上进行算法实现。最后用公共的天文大数据集SDSS和LAMOST对算法进行评测、分析和比较,验证了算法的有效性,相比于其他机器学习模型,包括SVM、逻辑斯特回归、深度ReLU模型等,LLDL的分类性能更优且具有较强的抗噪声能力。
【关键词】:特征选择 特征学习 大数据 并行算法 粗糙集 深度学习 自编码器
【学位授予单位】:西南交通大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181;TP311.13
【目录】:
- 摘要7-9
- Abstract9-19
- 第1章 绪论19-29
- 1.1 背景介绍和研究意义19-21
- 1.2 国内外研究现状21-27
- 1.2.1 大数据国内外研究现状21-23
- 1.2.2 面向大数据的特征选择国内外研究现状23-25
- 1.2.3 面向大数据的特征学习国内外研究现状25-27
- 1.3 本文的研究内容和组织结构27-29
- 第2章 预备知识29-39
- 2.1 粗糙集模型29-32
- 2.1.1 决策信息系统29
- 2.1.2 二元关系29-30
- 2.1.3 经典粗糙集模型30-31
- 2.1.4 扩展的粗糙集模型31-32
- 2.2 自编码器32-38
- 2.2.1 经典自编码器32-34
- 2.2.2 正则自编码器34-35
- 2.2.3 降噪自编码器35-36
- 2.2.4 收缩自编码器36-38
- 2.3 本章小节38-39
- 第3章 并行大规模特征选择39-65
- 3.1 引言39
- 3.2 特征选择方法39-41
- 3.2.1 特征选择的基本框架39
- 3.2.2 产生过程39-40
- 3.2.3 评价函数40-41
- 3.3 并行特征提取方法41-42
- 3.3.1 模型并行方法41
- 3.3.2 数据并行方法41-42
- 3.3.3 模型-数据并行方法42
- 3.4 并行特征提取算法42-56
- 3.4.1 启发式特征选择算法43-44
- 3.4.2 代表性的评价函数44-50
- 3.4.3 基于MapReduce的并行算法50-54
- 3.4.4 基于Spark的大规模并行属性约简算法54
- 3.4.5 基于粒计算的大规模并行属性约简加速算法54-56
- 3.5 实验分析56-64
- 3.5.1 数据集和实验平台57
- 3.5.2 与串行算法比较57-58
- 3.5.3 不同并行算法之间的比较58-62
- 3.5.4 高维数据上的表现62-63
- 3.5.5 实际大数据中的应用63-64
- 3.6 本章小节64-65
- 第4章 复杂数据融合与高效学习算法65-85
- 4.1 引言65
- 4.2 复合粗糙集模型65-68
- 4.3 近似集的矩阵表示方法68-71
- 4.3.1 近似集的矩阵表示方法68-70
- 4.3.2 近似集的布尔矩阵表示方法70-71
- 4.3.3 复合决策信息系统中的布尔矩阵方法71
- 4.4 算法设计与复杂度分析71-74
- 4.4.1 基于布尔矩阵的近似集计算算法71-72
- 4.4.2 基于矩阵的近似集计算的批处理算法72-74
- 4.5 并行近似集计算方法及基于GPU的并行算法74-79
- 4.5.1 并行近似集计算方法74-75
- 4.5.2 GPU架构与CUDA75-76
- 4.5.3 基于Single-GPU的近似集计算算法76-77
- 4.5.4 基于Multi-GPU的近似集计算算法77-79
- 4.6 实验分析79-82
- 4.6.1 实验设置79
- 4.6.2 批处理算法的性能79-80
- 4.6.3 GPU算法的性能80-81
- 4.6.4 Multi-GPU的性能81-82
- 4.7 本章小节82-85
- 第5章 基于深度学习的特征表示模型85-103
- 5.1 引言85-86
- 5.2 特征学习模型介绍86-93
- 5.2.1 问题陈述86-87
- 5.2.2 主网络87-88
- 5.2.3 辅助网络88-90
- 5.2.4 桥90-91
- 5.2.5 优化算法91
- 5.2.6 模型扩展91-93
- 5.3 基于SUGAR的深度学习模型93-94
- 5.4 实验分析94-101
- 5.4.1 数据集95-96
- 5.4.2 超参数选择96-97
- 5.4.3 性能评估97-101
- 5.5 本章小节101-103
- 第6章 特征学习模型在天文光谱识别中的应用103-121
- 6.1 引言103-105
- 6.2 局部线性深度学习模型105-110
- 6.2.1 深度学习模型106
- 6.2.2 局部线性的隐含层106-108
- 6.2.3 深度学习中的Dropout技术108
- 6.2.4 LLDL的代价函数108-110
- 6.2.5 随机梯度下降算法110
- 6.3 实验分析110-119
- 6.3.1 实验设置110-111
- 6.3.2 评估度量111
- 6.3.3 数据集111-113
- 6.3.4 不同关键部分的作用113-115
- 6.3.5 处理性能115-116
- 6.3.6 分类结果比较116-119
- 6.4 本章小节119-121
- 第7章 总结与展望121-123
- 7.1 本文总结121-122
- 7.2 研究展望122-123
- 致谢123-125
- 参考文献125-141
- 攻读博士学位期间发表、录用和完成的学术论文141-143
- 攻读博士学位期间主持或参与的科研项目143
本文关键词:面向大数据的高效特征选择与学习算法研究,由笔耕文化传播整理发布。
本文编号:392639
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/392639.html