面向大数据的高效特征选择与学习算法研究

发布时间：2017-05-25 04:01

本文关键词：面向大数据的高效特征选择与学习算法研究，，由笔耕文化传播整理发布。

【摘要】：近年来,随着互联网、物联网、云计算、三网融合等IT与通讯技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,信息社会已经进入了“大数据”时代。在当前大数据环境下,挖掘其中蕴含的知识以指导实际生产和具体应用,特征选择和学习的重要性更加凸显,不仅可以有效解决“维数灾难”,缓解“信息丰富、知识贫乏”现状,降低复杂度；而且可以更好地认识和理解数据。本文面向大数据,开展了并行大规模特征选择、复杂数据融合与高效学习、基于深度学习的特征表示模型、算法及应用研究。主要研究工作和创新概述分为以下四个部分。第一部分：并行大规模特征选择(第3章)构建了一个统一的并行大规模特征选择框架,进而提出了相应的模型并行方法、数据并行方法和模型-数据并行方法。以启发式特征选择为研究对象,分析其核心是特征重要度的计算,进而给出了统一的特征评价函数表示方法。基于该框架,给出了四种典型特征评价函数的分治方法,并分别设计了基于MapReduce和Spark的并行大规模特征选择算法。进一步引入粒计算理论对特征选择过程进行优化加速,并结合模型-数据并行方法,提出了PLAR-MDP算法。最后用UCI公共数据集、天文大数据集等在大数据计算平台Hadoop和Spark对算法的有效性进行了评测、分析和比较,验证了算法的有效性,同时说明了模型并行、数据并行和粒计算方法的有机结合可以最大限度提高数据处理性能。第二部分：复杂数据融合及高效学习算法(第4章)给出了复合信息系统的定义,进而扩展了粗糙集模型,提出了复合粗糙集模型。该模型可以同时处理多种数据类型,为复杂数据融合提供了一个新的方法。概念近似是基于粗糙集模型的特征选择算法的核心步骤,为有效计算概念近似,通过引入基本向量的概念,提出了复合粗糙集模型中近似集的矩阵表示方法,并设计了基于矩阵的近似集计算的批处理算法以及基于单GPU和GPU集群的并行算法。最后,利用人工数据集和UCI公共数据集进行实验评测,验证了算法的有效性,而且实验结果表明在GPU集群上算法的加速比高,性能得到了大幅度提升。第三部分：基于深度学习的特征表示模型(第5章)提出了基于深度学习的特征表示模型：SUGAR。该模型包括主网络、辅助网络和桥三部分,可以同时从标记数据和无标记数据中学习数据表征。其中主网络和辅助网络分别采用自编码器和哈希学习方法来构建,并应用L1正则惩罚对参数进行约束以获得鲁棒性强的特征,桥的作用是使得主网络和辅助网络参数尽可能接近。设计了基于小批次随机梯度下降的SUGAR模型训练算法。分别结合DAE和CAE模型,给出了"SUGAR with DAE"和"SUGAR with CAE'扩展模型。进而采用堆栈方式将多个SUGAR模型累加,建立了基于SUGAR的深度学习模型：DeepSUGAR。最后在经典的数字分类问题和8个深度学习基准数据集对算法进行评测、分析和比较,验证了算法的有效性,说明了所提出的深度学习模型可以产生更好的、鲁棒性更强的特征表示,有效提高分类精度。第四部分：特征学习模型在天文光谱识别中的应用(第6章)回顾了天文恒星光谱的特点及传统处理方法,进而根据恒星光谱的特点,提出了基于深度学习的特征表示方法LLDL。 LLDL模型包括多个局部线性Maxout网络作为其隐含层,并应用Dropout技术来正则化Maxout网络。进而设计了基于随机梯度下降和Momentum的LLDL模型训练算法,并在多核CPU和GPU上进行算法实现。最后用公共的天文大数据集SDSS和LAMOST对算法进行评测、分析和比较,验证了算法的有效性,相比于其他机器学习模型,包括SVM、逻辑斯特回归、深度ReLU模型等,LLDL的分类性能更优且具有较强的抗噪声能力。
【关键词】：特征选择 特征学习 大数据 并行算法 粗糙集 深度学习 自编码器
【学位授予单位】：西南交通大学
【学位级别】：博士
【学位授予年份】：2015
【分类号】：TP181;TP311.13
【目录】：

摘要7-9
Abstract9-19
第1章绪论19-29
1.1 背景介绍和研究意义19-21
1.2 国内外研究现状21-27
1.2.1 大数据国内外研究现状21-23
1.2.2 面向大数据的特征选择国内外研究现状23-25
1.2.3 面向大数据的特征学习国内外研究现状25-27
1.3 本文的研究内容和组织结构27-29
第2章预备知识29-39
2.1 粗糙集模型29-32
2.1.1 决策信息系统29
2.1.2 二元关系29-30
2.1.3 经典粗糙集模型30-31
2.1.4 扩展的粗糙集模型31-32
2.2 自编码器32-38
2.2.1 经典自编码器32-34
2.2.2 正则自编码器34-35
2.2.3 降噪自编码器35-36
2.2.4 收缩自编码器36-38
2.3 本章小节38-39
第3章并行大规模特征选择39-65
3.1 引言39
3.2 特征选择方法39-41
3.2.1 特征选择的基本框架39
3.2.2 产生过程39-40
3.2.3 评价函数40-41
3.3 并行特征提取方法41-42
3.3.1 模型并行方法41
3.3.2 数据并行方法41-42
3.3.3 模型-数据并行方法42
3.4 并行特征提取算法42-56
3.4.1 启发式特征选择算法43-44
3.4.2 代表性的评价函数44-50
3.4.3 基于MapReduce的并行算法50-54
3.4.4 基于Spark的大规模并行属性约简算法54
3.4.5 基于粒计算的大规模并行属性约简加速算法54-56
3.5 实验分析56-64
3.5.1 数据集和实验平台57
3.5.2 与串行算法比较57-58
3.5.3 不同并行算法之间的比较58-62
3.5.4 高维数据上的表现62-63
3.5.5 实际大数据中的应用63-64
3.6 本章小节64-65
第4章复杂数据融合与高效学习算法65-85
4.1 引言65
4.2 复合粗糙集模型65-68
4.3 近似集的矩阵表示方法68-71
4.3.1 近似集的矩阵表示方法68-70
4.3.2 近似集的布尔矩阵表示方法70-71
4.3.3 复合决策信息系统中的布尔矩阵方法71
4.4 算法设计与复杂度分析71-74
4.4.1 基于布尔矩阵的近似集计算算法71-72
4.4.2 基于矩阵的近似集计算的批处理算法72-74
4.5 并行近似集计算方法及基于GPU的并行算法74-79
4.5.1 并行近似集计算方法74-75
4.5.2 GPU架构与CUDA75-76
4.5.3 基于Single-GPU的近似集计算算法76-77
4.5.4 基于Multi-GPU的近似集计算算法77-79
4.6 实验分析79-82
4.6.1 实验设置79
4.6.2 批处理算法的性能79-80
4.6.3 GPU算法的性能80-81
4.6.4 Multi-GPU的性能81-82
4.7 本章小节82-85
第5章基于深度学习的特征表示模型85-103
5.1 引言85-86
5.2 特征学习模型介绍86-93
5.2.1 问题陈述86-87
5.2.2 主网络87-88
5.2.3 辅助网络88-90
5.2.4 桥90-91
5.2.5 优化算法91
5.2.6 模型扩展91-93
5.3 基于SUGAR的深度学习模型93-94
5.4 实验分析94-101
5.4.1 数据集95-96
5.4.2 超参数选择96-97
5.4.3 性能评估97-101
5.5 本章小节101-103
第6章特征学习模型在天文光谱识别中的应用103-121
6.1 引言103-105
6.2 局部线性深度学习模型105-110
6.2.1 深度学习模型106
6.2.2 局部线性的隐含层106-108
6.2.3 深度学习中的Dropout技术108
6.2.4 LLDL的代价函数108-110
6.2.5 随机梯度下降算法110
6.3 实验分析110-119
6.3.1 实验设置110-111
6.3.2 评估度量111
6.3.3 数据集111-113
6.3.4 不同关键部分的作用113-115
6.3.5 处理性能115-116
6.3.6 分类结果比较116-119
6.4 本章小节119-121
第7章总结与展望121-123
7.1 本文总结121-122
7.2 研究展望122-123
致谢123-125
参考文献125-141
攻读博士学位期间发表、录用和完成的学术论文141-143
攻读博士学位期间主持或参与的科研项目143

本文关键词：面向大数据的高效特征选择与学习算法研究，由笔耕文化传播整理发布。

本文编号：392639

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xxkjbs/392639.html

上一篇：水面运动平台下高精度红外成像跟踪关键技术研究
下一篇：下垫式认知无线电网络动态资源分配问题研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|