当前位置:主页 > 科技论文 > 自动化论文 >

基于大间隔最近邻的度量学习算法研究

发布时间:2020-06-22 21:15
【摘要】:随着全球化、网络化、信息化的深入,海量复杂的结构化数据不断地被收集和储存,智能数据分析作为技术进步的必要组成部分变得尤为重要,而机器学习因其在数据处理中的关键作用,受到了越来越多的关注。度量学习是机器学习的一个基础问题,许多主流的机器学习方法如K-均值聚类、最近邻分类、支持向量机等,性能很大程度上都依赖于所选择度量能否合理反映数据间的重要关系。手动选取的度量函数如欧氏距离虽然具有简单性和普遍性的优势,但其很难适应模式分类中的大部分问题。度量学习技术,通过利用数据监督信息,自动学习面向任务的距离函数,近年来成为一个热门的研究方向。虽然现有的度量学习方法在很多应用上取得了较好的结果,但它们不能很好地处理复杂的真实数据。针对度量学习面临的挑战性问题,本文从正则化先验的设计、度量矩阵的刻画、马氏距离的构造、模型的优化等方面,对基于大间隔最近邻的度量学习方法进行了深入研究,主要研究成果如下:(1)提出了一种基于复合结构的大间隔最近邻度量学习算法。该方法认为度量矩阵M不符合精确的低秩假设,并使用稀疏和低秩复合模型来刻画。与传统稀疏方法使用l_1范数正则不同,该方法要求稀疏部分的所有像素值都小于一个预先定义的阈值,这样损失函数会平等对待大于该阈值的所有像素值,使得模型更稳定。同时,与传统低秩方法最小化度量矩阵所有奇异值的和不同,该方法只要求低秩部分的奇异值小于另一个自适应学习得到的阈值,这样模型将会过滤掉对应较小奇异值的无关信息,使模型更鲁棒。即使在实际情况中,M的最优稀疏度和秩难以确定,该方法仍然稳定且可用。(2)提出了一种基于最大相关熵准则的大间隔最近邻度量学习算法,来处理真实数据中存在的恶意遮挡或退化问题。与传统方法不同,该方法将度量学习模型看作回归问题,并要求每个样本的类内重建残差大幅度小于类间重建残差。由于度量矩阵M是半正定的,所以可以被分解为M=L L,则重建残差可以看作是实施了线性变换L,之后使用相关熵诱导度量矩阵来刻画投影后的重建模型。该方法不仅能处理真实数据的遮挡问题,而且继承了传统度量学习方法的优势,即对图像对齐有效。(3)针对传统度量学习方法通常学习单一的马氏距离度量矩阵,无法刻画复杂的异质数据,且描述这些数据的特征大多也没有严格对齐的问题,提出了一种基于平滑Wasserstein距离的多层次大间隔最近邻度量学习算法。利用平滑Wasserstein距离刻画两个样本间的误差,而马氏距离则被当做Wasserstein距离中的地面距离。由于平滑Wasserstein距离不仅继承了距离本身的特性,而且引入了描述概率分布最优转移的流网络,因此无论两个样本是否对齐,它都能有效的度量样本间的相似性。另外,为了充分利用数据的结构信息,该方法通过一个共享的度量矩阵学习一个全局的平滑Wasserstein距离,用以模拟不同数据类之间的共性,通过额外的一些辅助度量矩阵学习多个局部的平滑Wasserstein距离,用以模拟每个数据类的特质。最后,该方法被应用于行为检测、亲属关系验证和视频分类三个应用,取得了很好的结果。(4)提出一个双层距离度量学习模型,联合优化特征提取和度量学习任务。现有度量学习方法大多直接将预处理阶段从数据中提取的特征作为输入,而这些特征通常并没有考虑数据的局部几何结构和数据中可能存在的噪声,因此它们可能对于接下来的度量学习任务并不是最好的选择。双层距离度量学习模型中低层模型用于挖掘数据的潜在结构,高层模型直接迫使同类的样本更近、不同类的样本更远。值得注意的是,高层模型输入的数据样本由低层模型学到的稀疏系数来表示。受低层模型特征提取操作的影响,新的特征因为稀疏项变得对噪声更鲁棒,因为拉普拉斯图项将变得更具有判别性。综上所述,本文以信号处理、模式识别为理论基础,以统计学习为主要技术手段,提出四种新的度量学习模型,有效改善了现有方法存在的不足,在人脸验证和模式分类方面取得了较好的效果,为解决度量学习问题提供了新的途径。
【学位授予单位】:西安电子科技大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP181
【图文】:

对比方法,验证实验,准确率,范数


图2.3人脸验证结果: (a) LFW SIFT特征集上的ROC曲线; (b) LFW属性特征集上的ROC曲线(c) PubFig数据集上的ROC曲线。(3)实验结果及分析为了计算所有对比方法在人脸验证实验中的准确率,图2.3报告了ROC(ReceivOperating Characteristic)曲线。为了更加客观的对比性能,计算每种方法的错误率(Equal Error Rate,EER),并使用1 - EER作为评估标准。取得最低EER或最高- EER的方法是性能最好的方法。显然,本章方法在LFW数据集取得了优于其他度量学习方法的性能。对于PubFig数据集,本章方法也得到了可以比得上基于Cappe核范数方法的结果。实际上,本章方法可以看作是基于Capped核范数方法的推广因为本章方法同时考虑了度量矩阵 M 的稀疏部分和低秩部分。利用两个 Capped 范数正则项,本章方法在LFW SIFT特征数据集上相比传统马氏距离提高了 7%,相比KISSME方法提高了约 1%。为了进一步说明本章方法的优势,图2.4给出了关于秩 k 的参数实验结果。本实验将基于核范数正则的度量学习方法作为基准。实验中,在 [30 : 5 : 70] 范围内调

【相似文献】

相关期刊论文 前10条

1 姜大光;孙贺娟;易军凯;;基于距离的相似最近邻搜索算法研究[J];北京化工大学学报(自然科学版);2017年05期

2 程碧达;;静音钻[J];科学启蒙;2017年Z1期

3 周屹;杨泽雪;邢传军;曲天伟;;一种连续最近邻查询的优化方法[J];黑龙江工程学院学报(自然科学版);2013年04期

4 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期

5 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期

6 刘文远;杜颖;陈子军;;不确定数据上范围受限的最近邻查询算法[J];小型微型计算机系统;2012年06期

7 蔡贺;张睿;;k最近邻域分类算法分析与研究[J];甘肃科技;2012年18期

8 管莹莹;肖迎元;李玉坤;;基于路网的连续K最近邻查询[J];天津理工大学学报;2012年06期

9 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期

10 刘彬;王建国;;范围最近邻查询方法研究[J];泰山学院学报;2011年03期

相关会议论文 前10条

1 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

2 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

3 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年

4 郑健;皮德常;;基于共享最近邻的聚类和孤立点检测算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

5 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

6 钟秉翔;;一种基于虚假最近邻点法的话务量预测模型[A];中国自动化学会控制理论专业委员会B卷[C];2011年

7 冯yN;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年

8 李兰芳;刘开培;罗欢;;最近邻模式识别法在车载FSK信号检测中的应用[A];首届信息获取与处理学术会议论文集[C];2003年

9 周波;石爱国;;混沌序列最近邻多步预报算法[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

10 林丽;冯少荣;薛永生;周晓丹;黄海;;数量关联规则发现中的最近邻聚类方法研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关博士学位论文 前10条

1 许洁;基于大间隔最近邻的度量学习算法研究[D];西安电子科技大学;2018年

2 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年

3 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年

4 张婷;基于量化的近似最近邻搜索技术研究[D];中国科学技术大学;2017年

5 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年

6 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年

7 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年

8 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年

9 李鑫;基于度量学习的最近邻信用评分模型研究[D];上海大学;2017年

10 李艳红;路网中移动对象最近邻及反向最近邻查询处理研究[D];华中科技大学;2011年

相关硕士学位论文 前10条

1 杨杰;图像检索中基于近似k-近邻图的近似最近邻搜索算法研究[D];厦门大学;2018年

2 郭莹莹;空间数据库中线段组最近邻查询方法研究[D];哈尔滨理工大学;2018年

3 刘娜;基于路网数据的云端安全最近邻查询方法研究[D];安徽工业大学;2018年

4 陈瑞;路网下地理社交文本最近邻查询研究[D];浙江大学;2018年

5 赵亮;面向流式数据近似最近邻查询的降维与量化方法研究[D];南京理工大学;2018年

6 李传青;基于残差量化优化的最近邻图像检索研究[D];合肥工业大学;2018年

7 夏超;短信联系人关系判断系统设计与实现[D];华中科技大学;2017年

8 潘天雄;基于Wi-Fi的室内三维定位算法研究[D];山西大学;2018年

9 程珂;云环境下的多密钥安全最近邻查询技术研究[D];安徽大学;2018年

10 单廷佳;基于图像特征的最近邻搜算法研究[D];中国科学技术大学;2017年



本文编号:2726253

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2726253.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ead41***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com