面向半监督流形正则化分类学习的改进框架研究
发布时间:2022-01-27 03:22
半监督分类学习是机器学习中一个重要研究领域,同时利用有标记和无标记样本进行学习,以缓解样本类标记稀缺的问题。流形正则化(Manifold regularization,MR)是半监督分类中一个经典有效的学习框架,但仍存在以下不足:1)在MR中,已标记样本的位置是随机的,可能处于边界区域甚至相反类中,将这些样本的标记传播到它们的近邻样本,可能会误导MR分类,尽管学习中会同时考虑未标记样本的分布结构。2)MR的平滑约束是基于所有样本对实现的,即将每个样本对看作一个单独对象。然而,光滑性本质是逐点的,具体来说,光滑性自然地发生在“每一点处”,体现每个样本点与其近邻点的相关联行为。因此,本文的研究问题主要包括以下的两个内容:首先,为减少已标记样本极其稀缺或位置存在误导时所产生的影响,对已标记样本集进行扩充,提出一种新的标记扩充的MR框架(Label-expanded Manifold Regularization for semi-supervised classification,LEMR)。在LEMR中,先利用聚类方法,如KFCM,发现每类中的高...
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
针对现有的半监督分类方法所大致整理的归类图
图 2.1 聚类假设以及流形假设2.3 半监督学习算法分类传统的机器学习包括全监督学习和无监督学习。在全监督学习方法中,仅仅利用有标记样本,在无监督学习方法中,单单利用无标记样本。然而,一方面,全监督学习只有在拥有大量的有标记样本时才能训练出泛化能力相对较优的学习器。无监督学习只利用无标记样本探索出样本数据集中可能包含的结构,但是学习到的模型可能还不够精确,最终导致性能低下。另一方面,在实际问题中,获取无标记样本十分容易,然而收集依赖人工标记的有标记样本却非常艰难。所以,能够同时利用少量的有标记样本以及大量的无标记样本的半监督分类学习成为了机器学习领域中备受关注和研究探讨的主题,半监督学习能够将监督学习中的来自少量的有标记样本提供的监督信息以及无监督学习中的来自大量的无标记样本蕴含的结
由全监督支持向量机发展而来的大间隔半监督分类方法,它通过最大化已标记样本以及无标记样本的类间间隔,采用聚类假设将样本数据进行划分为多个聚类,并且引导分类边界处于数据分布的低密度区域中,最后通过获得的边界将样本子集进行划分[37]。经典的大间隔方法包括直推式支持向量机(Transductive Support Vector Machines,TSVM)[39]和半监督 SVM(Semi-Supervised Support Vector Machine,S3VM)[41]。在全监督SVM 中,训练集仅包含有标记样本,在学习的过程中,按照经验风险最小化和间隔最大化的原则来寻找分类边界。而在半监督 SVM 中,训练集不仅包含有标记样本还包含大量的无标记样本,首先利用训练集中的已标记样本进行学习获得分类边界,然后再不断地调整无标记样本的预测标签以及惩罚参数,使获得的分类边界能够尽可能地从样本分布相对稀疏的区域中穿过,并且使间隔最大化。图 2.2 所示的,即全监督 SVM 的分类超平面以及半监督 SVM的分类超平面,其中“+”表示的是正类的已标记样本,“ ”表示的是负类的已标记样本,“o”表示的是无标记样本,实线表示的是分类超平面。
【参考文献】:
期刊论文
[1]基于局部流形重构的半监督多视图图像分类[J]. 董西伟. 计算机工程与应用. 2016(18)
[2]基于无监督学习算法的推特文本规范化[J]. 邓加原,姬东鸿,费超群,任亚峰. 计算机应用. 2016(07)
[3]基于特征映射的半监督文本分类算法[J]. 杜芳华,冀俊忠,赵学武,吴晨生. 北京工业大学学报. 2016(02)
[4]基于自然邻居流形排序图像检索技术研究[J]. 朱庆生,陈治,张程. 计算机应用研究. 2016(04)
[5]基于查询—文档异构信息网络的半监督学习[J]. 刘钰峰,李仁发. 通信学报. 2014(08)
硕士论文
[1]半监督支持向量机分类方法研究[D]. 陈永健.陕西师范大学 2014
本文编号:3611661
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
针对现有的半监督分类方法所大致整理的归类图
图 2.1 聚类假设以及流形假设2.3 半监督学习算法分类传统的机器学习包括全监督学习和无监督学习。在全监督学习方法中,仅仅利用有标记样本,在无监督学习方法中,单单利用无标记样本。然而,一方面,全监督学习只有在拥有大量的有标记样本时才能训练出泛化能力相对较优的学习器。无监督学习只利用无标记样本探索出样本数据集中可能包含的结构,但是学习到的模型可能还不够精确,最终导致性能低下。另一方面,在实际问题中,获取无标记样本十分容易,然而收集依赖人工标记的有标记样本却非常艰难。所以,能够同时利用少量的有标记样本以及大量的无标记样本的半监督分类学习成为了机器学习领域中备受关注和研究探讨的主题,半监督学习能够将监督学习中的来自少量的有标记样本提供的监督信息以及无监督学习中的来自大量的无标记样本蕴含的结
由全监督支持向量机发展而来的大间隔半监督分类方法,它通过最大化已标记样本以及无标记样本的类间间隔,采用聚类假设将样本数据进行划分为多个聚类,并且引导分类边界处于数据分布的低密度区域中,最后通过获得的边界将样本子集进行划分[37]。经典的大间隔方法包括直推式支持向量机(Transductive Support Vector Machines,TSVM)[39]和半监督 SVM(Semi-Supervised Support Vector Machine,S3VM)[41]。在全监督SVM 中,训练集仅包含有标记样本,在学习的过程中,按照经验风险最小化和间隔最大化的原则来寻找分类边界。而在半监督 SVM 中,训练集不仅包含有标记样本还包含大量的无标记样本,首先利用训练集中的已标记样本进行学习获得分类边界,然后再不断地调整无标记样本的预测标签以及惩罚参数,使获得的分类边界能够尽可能地从样本分布相对稀疏的区域中穿过,并且使间隔最大化。图 2.2 所示的,即全监督 SVM 的分类超平面以及半监督 SVM的分类超平面,其中“+”表示的是正类的已标记样本,“ ”表示的是负类的已标记样本,“o”表示的是无标记样本,实线表示的是分类超平面。
【参考文献】:
期刊论文
[1]基于局部流形重构的半监督多视图图像分类[J]. 董西伟. 计算机工程与应用. 2016(18)
[2]基于无监督学习算法的推特文本规范化[J]. 邓加原,姬东鸿,费超群,任亚峰. 计算机应用. 2016(07)
[3]基于特征映射的半监督文本分类算法[J]. 杜芳华,冀俊忠,赵学武,吴晨生. 北京工业大学学报. 2016(02)
[4]基于自然邻居流形排序图像检索技术研究[J]. 朱庆生,陈治,张程. 计算机应用研究. 2016(04)
[5]基于查询—文档异构信息网络的半监督学习[J]. 刘钰峰,李仁发. 通信学报. 2014(08)
硕士论文
[1]半监督支持向量机分类方法研究[D]. 陈永健.陕西师范大学 2014
本文编号:3611661
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3611661.html