基于选择性集成学习的迁移学习算法研究
发布时间:2018-05-15 04:28
本文选题:迁移学习文本分类 + 选择性集成 ; 参考:《南京航空航天大学》2017年硕士论文
【摘要】:传统的机器学习是基于统计学的机器学习,其中一个基本的假设条件就是训练和测试数据来自相同的特征空间并且具有相同的概率分布。然而,在很多实际应用中,这种假设往往并不成立,导致传统的机器学习技术对这种问题的解决失去了效力。近年来,迁移学习(transfer learning)作为一种新的学习典范被用于处理这种挑战。迁移学习最大的特点就是利用从旧的源领域学习到的知识帮助一个新的目标领域完成学习任务,使得传统的从零开始的学习变为可以积累的学习。目前学者们已经提出很多方法用于解决迁移学习文本分类问题,比如利用支持向量机、人工神经网络等等。尽管研究表明这些方法取得了比较好的分类性能,但是单一模型用于解决迁移学习问题存在着一定的局限性,因此有学者提出使用集成学习解决该问题。然而,集成学习需要多个基模型,这就增加了时间和空间复杂性,同时泛化能力差的基模型也会影响最终的分类效果。在原始集成系统中选择一个子集用于构建集成系统可以很好的解决这个问题,该方法被称为集成剪枝,也可以称为选择性集成(selective ensemble)。选择性集成技术可以有效解决集成学习中存在的高计算复杂度的缺点。本文提出了一种新颖的基于知识杠杆的RankRE-TL算法用于解决迁移学习文本分类问题。该算法将基于知识杠杆的迁移学习机制同基于减小错误的排序准则RankRE(Rank-based Reduce Error evaluation measure)结合完成迁移任务。RankRE准则的设计原理是选择一个候选分类器,使得其并入到当前子集成系统后形成新的子集成系统的泛化误差最小。RankRE-TL算法针对源领域数据和目标领域已标注数据分布存在一定相似性,但两域之间已标注数据数量严重失衡的问题,提出了一种动态数据重组的方法来解决该问题。通过将大量源数据利用Bootstrap技术按不同比例选取多个训练子集分别与少量的目标域训练数据结合得到多个重构的训练集,然后分别训练分类器得到原始集成系统。另外,与传统的选择性集成技术构建验证集的方式不同,RankRE-TL设计了一种新的方法来构造剪枝集。然而基于RankRE评估准则的选择性集成算法是一种贪婪的算法,容易限于局部最优解。为解决该问题,同时为了更有效地迁移源域知识,本文提出了一种融合TrSVM与选择性集成方法GASEN的迁移算法TrGASVM。其中,TrSVM首先在基于动态数据集重组的基础上训练多个源域模型,得到多个支持向量集(SV)。对每个SV集,按照其与目标领域训练数据的相似度分配权重,并和目标域训练数据组合得到新的训练集,最后在各训练集上分别训练模型得到迁移SVM集成系统。GASEN算法是基于组合优化的启发式算法,利用遗传算法实现对集成中模型的选择,不仅具有遗传算法的优点,也可以避免贪婪集成剪枝所具有的局部最优问题。TrGASVM融合TrSVM和GASEN用于迁移学习,这样不仅具有TrSVM算法的优点,也结合了GASEN的优势,因此能够更有效的对源域知识进行迁移。
[Abstract]:Traditional machine learning is based on statistical machine learning , one of the basic assumptions is that training and test data come from the same feature space and have the same probability distribution . However , in many practical applications , this assumption is often not established , which results in the traditional machine learning technology being used to solve the problem . This paper proposes a new method to solve the problem .
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181
【参考文献】
相关期刊论文 前1条
1 张春霞;张讲社;;选择性集成学习算法综述[J];计算机学报;2011年08期
相关硕士学位论文 前1条
1 王轶初;基于集成学习的半监督学习算法研究[D];西安电子科技大学;2011年
,本文编号:1890978
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1890978.html