复杂环境下的特征学习
发布时间:2021-09-23 21:08
从给定输入数据中提取特征是机器学习成功应用的关键[8]。特征学习寻求从输入数据到(通常是实数值的)特征向量的最优转换,该特征向量可以作为学习问题的输入。常见的特征学习方法包括字典学习、维度约减、流形学习、距离度量学习、神经网络等。距离度量学习作为特征学习的子领域,可以根据不同的任务自主学习出特定的度量距离函数,进而提高基于相似度的学习器(如k近邻)的学习能力,近年来得到广泛关注。同时,机器学习领域的进展促使政府和企业将其部署在自动化系统中,如无人驾驶、自动交易系统等,这些应用要求算法在复杂环境下对已知和未知情况都能保证鲁棒性[9][10]。本文考虑了现实中的复杂情况,在不同情形下对距离度量学习做出以下研究:1.考虑复杂环境下样本上可能有的噪音或扰动会改变其间的关系,影响到学得的度量矩阵,本文提出在学习度量矩阵的同时近似样本上的噪音,得到了更鲁棒的学习算法。2.针对复杂环境下物体联系的多样性,本文给出一种考虑样例上多种度量关系的统一框架。该框架通过引入操作子灵活刻画了样例间的关系,不仅考虑了样本间的空间关系度量,还表达出样本间的语义联系。此外,该框架还可以转化为其他已有的度量学习算法。3...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.1?DRIFT方法示例
?南京大学研究生毕业论文???可以扩大类别边界。反之,处于区域“A”的样例在类别交界处,对噪声比较敏??感,不易处理。因此,和前面的样例相比,如果区域“A”中的样例被选做目标??近邻,它们对应的协方差应该较小,期望距离也比较小,并且求解中其相关约束??的权重也应该小一些。??v?|?x矣别1?x?X?x?X类钊I?|??x?I??奚别21_?v??X?x?\?於?/??(a)人造数据集?(6)?DRIFT映射??1?1?'?x?1?1?1?txv/???w?x???y??X矣别l|?令|?X类hi系??x?x?I??奚别21?^?0?_^^2?j:??:釋/?:销養:??(C)选择的主要结构?(0〇?分布的视觉效果??图2.2人造数据集上DRIFT性质的可视化。图⑷-⑷分别是原始样例,映射后的??样例,选择的结构和所学的分布。??2.4.2真实数据集上的结果??为了验证DRIFT方法学得的度量的分类能力,木小节在丨5个K实数据集上??通过30次随机实验对比了?DRIFT算法和K.他度M学法。坷次实验随机挑选??出70%的数据作为训练集,余下的为测试集。参数范围设置为丨1(T2,?10'...,?10”。??对比的方法分为三类。第一类是常用的度M学习方法:LMNN^、dnei37i、??itmlA?GMMLW和RVMLl3%第:::类是在训练过程中考虑辅助信息权重的方??法:MSLMNNf5】、LNMU23_?MSMU4°]。最后-类是在距离〖卜算时考虑了噪音??影响或者数据分布的方法:SGDDlW和MPMFJ2|1。丈验屮使川?:近邻方法分类,??15??
?南京大学研究生毕业论文???成3个目标近邻和10个异类点组成三元组集合。然后从集合中采样20%的三元??组,交换近邻样本和异类样本的位置,将它们作为噪音数据。因为LMNN、??MSLMNN和LNML都是从三元组信息中学习度量,本小节比较了这三种方法和??DRIFTb。MSLMNN是个多阶段方法,实验中对其每阶段新产生的辅助信息都进??行了扰动,实验结果如图2.3所示。??0.5-1?0.5-1??0.4?-?-?0?4?-?T?■?_??平?千??均?f?r ̄?n?均?r ̄?r?一1??測…?1?T?測…?1?I???Mill??:inBiHi??liUCUD?LMNN?MSLMVN?LNML?DRUT?I:UCLID?LMNN?MSLMNN?LNML?1)R!IT??(a)?australia?(b)?credit??0.J0-1?0.6-??平?平“.??均?rti?Hh?均。4.?厂—i厂—i??测?寿疼::i.?測?:::1??7尺(1.05?.?r—O.J?■?V/???j??'IniHii?輔?hii??l.llCLin?1.MNX?MSLMNN?LNMl.?DRIIT?l:Uri.ID?LMNN?MSl.MNN?I..MMI?DR1IT??(c)?sick?(d)?sonar??图2.3在有噪音的辅助信息上的算法结果比较。算法在无噪音数据上的结果用??纯色表示,在有噪音数据上增加的错误率用对应颜色的阴影表示。误差条表示??算法在有噪音数据上30次实验的均方误差。??这里只给出了?4个数据集上的结果,除了上述三种和三元组相关的度量学习?
本文编号:3406417
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.1?DRIFT方法示例
?南京大学研究生毕业论文???可以扩大类别边界。反之,处于区域“A”的样例在类别交界处,对噪声比较敏??感,不易处理。因此,和前面的样例相比,如果区域“A”中的样例被选做目标??近邻,它们对应的协方差应该较小,期望距离也比较小,并且求解中其相关约束??的权重也应该小一些。??v?|?x矣别1?x?X?x?X类钊I?|??x?I??奚别21_?v??X?x?\?於?/??(a)人造数据集?(6)?DRIFT映射??1?1?'?x?1?1?1?txv/???w?x???y??X矣别l|?令|?X类hi系??x?x?I??奚别21?^?0?_^^2?j:??:釋/?:销養:??(C)选择的主要结构?(0〇?分布的视觉效果??图2.2人造数据集上DRIFT性质的可视化。图⑷-⑷分别是原始样例,映射后的??样例,选择的结构和所学的分布。??2.4.2真实数据集上的结果??为了验证DRIFT方法学得的度量的分类能力,木小节在丨5个K实数据集上??通过30次随机实验对比了?DRIFT算法和K.他度M学法。坷次实验随机挑选??出70%的数据作为训练集,余下的为测试集。参数范围设置为丨1(T2,?10'...,?10”。??对比的方法分为三类。第一类是常用的度M学习方法:LMNN^、dnei37i、??itmlA?GMMLW和RVMLl3%第:::类是在训练过程中考虑辅助信息权重的方??法:MSLMNNf5】、LNMU23_?MSMU4°]。最后-类是在距离〖卜算时考虑了噪音??影响或者数据分布的方法:SGDDlW和MPMFJ2|1。丈验屮使川?:近邻方法分类,??15??
?南京大学研究生毕业论文???成3个目标近邻和10个异类点组成三元组集合。然后从集合中采样20%的三元??组,交换近邻样本和异类样本的位置,将它们作为噪音数据。因为LMNN、??MSLMNN和LNML都是从三元组信息中学习度量,本小节比较了这三种方法和??DRIFTb。MSLMNN是个多阶段方法,实验中对其每阶段新产生的辅助信息都进??行了扰动,实验结果如图2.3所示。??0.5-1?0.5-1??0.4?-?-?0?4?-?T?■?_??平?千??均?f?r ̄?n?均?r ̄?r?一1??測…?1?T?測…?1?I???Mill??:inBiHi??liUCUD?LMNN?MSLMVN?LNML?DRUT?I:UCLID?LMNN?MSLMNN?LNML?1)R!IT??(a)?australia?(b)?credit??0.J0-1?0.6-??平?平“.??均?rti?Hh?均。4.?厂—i厂—i??测?寿疼::i.?測?:::1??7尺(1.05?.?r—O.J?■?V/???j??'IniHii?輔?hii??l.llCLin?1.MNX?MSLMNN?LNMl.?DRIIT?l:Uri.ID?LMNN?MSl.MNN?I..MMI?DR1IT??(c)?sick?(d)?sonar??图2.3在有噪音的辅助信息上的算法结果比较。算法在无噪音数据上的结果用??纯色表示,在有噪音数据上增加的错误率用对应颜色的阴影表示。误差条表示??算法在有噪音数据上30次实验的均方误差。??这里只给出了?4个数据集上的结果,除了上述三种和三元组相关的度量学习?
本文编号:3406417
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3406417.html