面向数据有效学习的机器学习技术研究
发布时间:2021-06-29 14:27
近年来,受益于数据的海量增加和计算资源的日益增强,机器学习在很多应用领域都取得了突破性进展。然而,机器学习技术的性能提升非常依赖于大规模的标记数据集,尤其是深度学习,由于其训练过程需要拟合大量的参数,在标记数据不够充分的情况下,很容易出现过拟合现象。对于很多任务来说,人工标注一个大规模的训练数据集是一项非常棘手的工作,需要耗费大量的人力成本和时间开销。数据有效学习旨在提高机器学习技术对数据的利用效率,减少其对大规模标记数据的过分依赖,在近年来受到了大量的关注和研究。通过研究面向数据有效学习的机器学习技术,有助于提高机器学习的实用性,降低其相关应用的开发成本,并使其能够更好地应对数据稀缺的学习任务。本文主要内容分为五个部分,以数据的有效学习为核心,分别从模型的自适应学习和数据的领域自适应两个角度探讨了如何在标记训练数据不够充足的情况下实现机器学习。其中,论文的前三个部分从模型的自适应学习出发,重点研究利用非参贝叶斯、黑箱优化等技术使机器学习能够根据训练数据的具体规模和复杂程度自适应地选择模型,避免在训练数据较少时因模型过于复杂导致过拟合现象发生;在标记数据不足的情况下,除了从模型本身出发...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
–2领域自适应图例:数据出自“VisDA2017”挑战赛[39]
-150 -100 -500 50 100 150 2数据上所构建的离散隐高斯过程的连续表示空间:通过P据采用“砖红色”显示,测试数据中的“共和党”样本采中的“民主党”样本采用“蓝色”显示。和“剪接点基因序列”这两组实验上,GCM-LGM分类结果,其原因可能是因为这两组数据的生成过尽管如此,由于高斯过程的非参贝叶斯特性,GCM自适应地调整模型,使其能够适合于数据的具体特乎同等水平的分类结果。隐高斯过程所学习到的连续表示进行了可视化,针在“共和党”数据上构建的离散隐高斯过程的连D 空间,很明显可以看出,在测试数据中,“共和很好地融合到了一起,而“民主党”样本只是零散的四周。因此,离散隐高斯过程所学习到的连续隐
图 5–4 实验数据样例:对各组图片来说,源域数据位于图片的上方,目标域数据位于图片的下方。左上角:从“MNIST”到“USPS”;右上角:从“SVHN”到“MNIST”;左下角:从“MNIST”到“MNIST-M”;右下角:从“SYN-SIGNS”到“GTSRB”。当作验证集用于选择超参数,剩下的“USPS”图片被用于评估算法的性能。2. USPS to MNIST:与上一组实验相比,本组实验的源域数据与目标域数据正好相反。实验的训练数据包括 1,800 张带有标记的“USPS”图片和2,000 张未标记的“MNIST”图片,1,000 张带有标记的“MNIST”图片被用于选择模型的超参。3. MNIST to MNIST-M:本组实验将“MNIST”图片作为源域数据,目标域数据“MNIST-M”通过对“MNIST”图片进行转换后得到。“MNIST-M”数据集的生成细节在文献[76]中有详细介绍,大致来说,“MNIST-M”是通过将“MNIST”图片中的数字同“BSDS500”数据集中的背景图像相混合产生的。由于“MNIST”图片与“MNIST-M”图片在背景、风格等多方面均存在差异,本组实验相比以上两组迁移任务更加具有挑战性。实验
本文编号:3256608
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:123 页
【学位级别】:博士
【部分图文】:
–2领域自适应图例:数据出自“VisDA2017”挑战赛[39]
-150 -100 -500 50 100 150 2数据上所构建的离散隐高斯过程的连续表示空间:通过P据采用“砖红色”显示,测试数据中的“共和党”样本采中的“民主党”样本采用“蓝色”显示。和“剪接点基因序列”这两组实验上,GCM-LGM分类结果,其原因可能是因为这两组数据的生成过尽管如此,由于高斯过程的非参贝叶斯特性,GCM自适应地调整模型,使其能够适合于数据的具体特乎同等水平的分类结果。隐高斯过程所学习到的连续表示进行了可视化,针在“共和党”数据上构建的离散隐高斯过程的连D 空间,很明显可以看出,在测试数据中,“共和很好地融合到了一起,而“民主党”样本只是零散的四周。因此,离散隐高斯过程所学习到的连续隐
图 5–4 实验数据样例:对各组图片来说,源域数据位于图片的上方,目标域数据位于图片的下方。左上角:从“MNIST”到“USPS”;右上角:从“SVHN”到“MNIST”;左下角:从“MNIST”到“MNIST-M”;右下角:从“SYN-SIGNS”到“GTSRB”。当作验证集用于选择超参数,剩下的“USPS”图片被用于评估算法的性能。2. USPS to MNIST:与上一组实验相比,本组实验的源域数据与目标域数据正好相反。实验的训练数据包括 1,800 张带有标记的“USPS”图片和2,000 张未标记的“MNIST”图片,1,000 张带有标记的“MNIST”图片被用于选择模型的超参。3. MNIST to MNIST-M:本组实验将“MNIST”图片作为源域数据,目标域数据“MNIST-M”通过对“MNIST”图片进行转换后得到。“MNIST-M”数据集的生成细节在文献[76]中有详细介绍,大致来说,“MNIST-M”是通过将“MNIST”图片中的数字同“BSDS500”数据集中的背景图像相混合产生的。由于“MNIST”图片与“MNIST-M”图片在背景、风格等多方面均存在差异,本组实验相比以上两组迁移任务更加具有挑战性。实验
本文编号:3256608
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3256608.html