基于迁移学习的特征选择与分类方法及其应用研究
发布时间:2017-05-30 14:02
本文关键词:基于迁移学习的特征选择与分类方法及其应用研究,由笔耕文化传播整理发布。
【摘要】:近年来,特征降维和模式分类方法作为模式识别研究领域的两大重要内容,受到广大学者的关注。特别是随着近期出现迁移学习框架的快速发展,使特征降维和模式分类方法的适用范围更加广泛。但是,传统的特征降维和模式分类方法仍然面临着一系列的问题,如精度不高,泛化能力弱,应用范围单一等。鉴于此,本课题在迁移框架下对特征降维和模式分类进行了相关研究,具体内容如下:1、以Relief算法为基础研究了基于迁移学习的特征选择方法。在迁移学习的应用场景下构造了基于间距最大化原理的最优化学习问题,而后运用优化理论对该函数进行了理论证明,最后对应于迁移环境下二类和多类的迁移学习问题,提出不同版本的迁移Relief算法。通过在人工集和真实数据集上的实验表明算法是有效的。2、研究面向演进数据流数据的分类方法,在有效利用相邻演进窗内数据间相似性信息的基础上,通过引入反例信息,构建了一种面向演进数据流的增强型演进分类器优化目标函数,从而推导出面向演进数据流的分类新方法。该方法在保有最大间隔原则和全局优化特性的同时,亦充分考虑反例信息对待解分类平面的影响。模拟和真实数据集上的实验表明了所提新方法的有效性。3、基于组概率的学习方法因其能够很好地保护数据的隐私性而成为近年来机器学习领域的研究热点。已有的组概率学习方法虽然取得了一定的效果,但是在模型训练时仅考虑单一的场景信息,如果在当前领域所采集的数据信息有限,则在当前领域下建立的分类模型泛化能力较差。针对此问题,提出了一种基于组概率和结构风险最小化模型的迁移组概率学习机(TGPLM)。该方法通过构造领域相似距离项来引入历史领域的先验知识,提出了针对类标签保护数据的增强型分类器优化目标学习准则,以期在有效利用当前领域数据类标签组概率信息的同时借鉴历史领域相关知识来指导当前领域下的学习任务。基于模拟、UCI及PIE人脸等数据集上的实验结果表明,本文所提之方法是有效的。4、为解决机器学习中的主观知识缺失问题,提出一种新的面向共享数据的迁移组概率学习机(TGPLM-CD)。该方法方法基于结构风险最小化模型,将源领域所含知识和目标领域的类标签组概率信息,特别是领域间的共享数据纳入学习框架中,进而实现了源领域和目标领域的知识迁移,因此在待研究领域数据信息不足的情况下提高了分类精确度。在大量数据集上的实验结果上表明了所提方法的有效性。5、在真实世界中往往无法得到数据的确切类别标签,为解决该场景下的分类学习问题,提出一种新的适用于不确定类标签数据的迁移标支持向量机方法(TSVM-UL)。该方法基于结构风险最小化模型,同时将源领域中所学知识,领域间的共享数据及目标领域中已标定的和不确定的数据纳入组概率学习框架中,进而实现了源领域和目标领域的知识迁移。在PIE人脸数据集和20Newsgroups数据集上的实验结果上表明了所提方法的有效性。6、在政治、欺诈检测和疾病诊断等领域,为了保护数据标签信息的隐私性,一种常见情况是仅知道少量已标记信息和未标记样本的比例信息,由此产生了一种人为的信息缺失。为解决该应用场景下的分类学习问题,提出一种新的部分类标签隐私保护的流形支持向量机(Support vector machine with manifold regularization and partially labeling privacy protection,SVM-MRPLPP)。该方法将未标定数据的类标签比例信息纳入流形正则学习框架中,构造了一种分类器优化目标函数准则,提高了分类学习能力。而后为降低算法复杂度优化了目标函数,提出了适合大样本数据集的部分类标签隐私保护的大样本流形支持向量机(Scalable support vector machine with manifold regularization and partially labeling privacy protection,SSVM-MRPLPP)实现了对大样本的快速训练和分类。大量人造和真实数据集上的实验结果表明了SVM-MRPLPP和SSVM-MRPLPP算法的有效性。
【关键词】:演进数据流 支持向量机 迁移学习 组概率 隐私保护
【学位授予单位】:江南大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181;TP391.4
【目录】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 绪论10-16
- 1.1 课题研究背景10-13
- 1.1.1 特征降维方法10-11
- 1.1.2 模式分类方法11-12
- 1.1.3 迁移学习12-13
- 1.2 特征降维和模式分类面临的几个挑战13-14
- 1.3 课题主要内容、特色和创新14-16
- 第二章 基于迁移学习的特征选择方法研究16-28
- 2.1 引言16
- 2.2 RELIEF和间距最大化16-19
- 2.2.1 Relief算法16-17
- 2.2.2 基于间距最大化的Relief特征加权17
- 2.2.3 迭代Relief17-19
- 2.3 迁移RELIEF19-21
- 2.3.1 迁移Relief框架目标函数19-20
- 2.3.2 理论推导20-21
- 2.4 适用于多类数据的T-RELIEF-M方法21-22
- 2.4.1 T-Relief-m方法21-22
- 2.4.3 计算复杂性分析22
- 2.5 实验与分析22-26
- 2.5.1 实验设置22
- 2.5.2 人工数据集22-25
- 2.5.3 真实数据集25-26
- 2.6 结论26-28
- 第三章 一种面向演进数据流的结合相似准则和反例信息的分类新方法28-40
- 3.1 引言28-29
- 3.2 TA-SVM29
- 3.3 结合相似准则与反例信息的演进数据流支持向量机:SCC-SVM29-34
- 3.3.1 结合相似准则和反例信息的目标函数构造29-33
- 3.3.2 算法描述33
- 3.3.3 讨论33-34
- 3.4 实验与分析34-38
- 3.4.1 人造数据集34-37
- 3.4.2 真实数据集37-38
- 3.5 总结38-40
- 第四章 迁移组概率学习机40-54
- 4.1 引言40-41
- 4.2 反向标定技术(IC)41
- 4.3 迁移组概率学习机41-48
- 4.3.1 融合数据和组概率的目标函数构造42-43
- 4.3.2 相关定理推导和证明43-47
- 4.3.3 TGPLM算法流程47
- 4.3.4 TGPLM的问题复杂度分析47-48
- 4.4 实验结果与分析48-53
- 4.4.1 人工数据集48-49
- 4.4.2 真实数据集49-51
- 4.4.3 参数敏感实验51-53
- 4.5 结论53-54
- 第五章 面向共享数据的迁移组概率学习机54-68
- 5.1 前言54
- 5.2 组概率支持向量机(IC-SVM)54-55
- 5.2.1 传统支持向量机54-55
- 5.2.2 组概率支持向量机55
- 5.3 面向共享数据的迁移组概率学习机55-63
- 5.3.1 问题定义56
- 5.3.2 目标函数构造56-58
- 5.3.3 相关定理推导和证明58-62
- 5.3.4 TGPLM-CD算法流程62-63
- 5.4 实验结果与分析63-67
- 5.4.1 人造双月型数据集64-65
- 5.4.2 真实数据集65-67
- 5.5 结论67-68
- 第六章 适用于不确定类标签数据学习的迁移支持向量机68-78
- 6.1 前言68-69
- 6.2 相关工作69
- 6.3 适用于不确定类标签数据学习的迁移支持向量机69-74
- 6.3.1 目标函数构造69-70
- 6.3.2 相关定理推导和证明70-73
- 6.3.3 TSVM-UL算法流程73-74
- 6.4 实验结果与分析74-77
- 6.4.1 PIE人脸数据集74-75
- 6.4.2 跨领域文本数据集 20Newsgroups75-76
- 6.4.3 UCI数据集76-77
- 6.4.4 实验结果分析77
- 6.5 结论77-78
- 第七章 基于不确定标签比例的半监督学习机78-96
- 7.1 引言78-79
- 7.2 流形正则化(MR)框架79-80
- 7.3 部分类标签保护的流形支持向量机80-83
- 7.3.1 目标函数构造80-81
- 7.3.2 相关定理推导和证明81-83
- 7.3.3 SVM-MR&PLPP算法流程83
- 7.3.4 SVM-MR&PLPP的问题复杂度分析83
- 7.4 适用于大数据集的类标签隐私保护的流形学习机83-86
- 7.4.1 目标函数构造83-84
- 7.4.2 相关定理证明84-85
- 7.4.3 SSVM-MR&PLPP算法流程85-86
- 7.4.4 算法分析86
- 7.5 实验与分析86-94
- 7.5.1 人工数据集86-90
- 7.5.2 真实数据集90-93
- 7.5.3 不同数目带标签样本和未带标签样本实验93-94
- 7.6 结论94-96
- 第八章 结束语96-98
- 致谢98-100
- 参考文献100-108
- 附录 1:作者在攻读博士学位期间发表的论文列表108
- 附录 2:攻读博士学位期间参与的科研项目列表108
【参考文献】
中国期刊全文数据库 前10条
1 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
2 韩建民;于娟;虞慧群;贾l,
本文编号:407241
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/407241.html