基于卷积神经网络的自动图像识别与标注
发布时间:2023-04-25 01:21
图像检索是计算机视觉领域中具有重大价值的课题,自动图像标注是图像检索和图像理解的关键步骤,行人重识别是图像检索在真实行人场景中的具体应用。本文对自动图像标注和行人重识别分别进行研究,针对训练深层网络容易出现过拟合、传统标注模型结构繁琐、真实场景行人重识别研究较少等问题,在数据增强、标注框架、实际应用等方面提出解决方法,本文的主要工作包括:(1)针对深层神经网络难以训练小规模数据集、传统数据增强方法难以大量扩充多标签数据集等问题,在部分传统数据增强方法的基础上,提出了基于Wasserstein生成对抗网络的多标签数据增强方法(ML-WGAN),该方法通过训练使WGAN的生成器逐渐逼近单张多标签图像的数据分布,将迭代过程中生成的图像作为原图数据的补充,该方法能够方便大量地扩充多标签数据集,减少训练深层神经网络的过拟合问题,从数据本身提升图像识别、标注模型的泛化能力。(2)针对传统浅层模型泛化能力弱、传统标注模型将特征提取与分类标注视为两个独立任务进行研究而导致的结构繁琐等问题,提出了基于端到端深层卷积神经网络(E2E-DCNN)结构的自动图像标注模型,该模型首先将图像标注转换成多标签分类问...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 研究现状及问题
1.3 本文主要创新点
1.4 本文组织结构
第二章 相关技术
2.1 卷积神经网络
2.1.1 深度学习发展分析
2.1.2 CNN
2.2 相似度度
2.3 评价指标
2.3.1 图像标注评价指标
2.3.2 行人重识别评价指标
2.4 本章小结
第三章 基于生成对抗网络的多标签数据增强
3.1 传统数据增强
3.1.1 数据增强原理
3.1.2 传统数据增强方法
3.1.3 传统数据增强的局限性
3.2 生成对抗网络GAN
3.2.1 GAN原理
3.2.2 WGAN原理
3.3 基于ML-WGAN的数据增强
3.4 实验与分析
3.4.1 实验设置
3.4.2 结果展示
3.4.3 ML-WGAN的有效性
3.5 本章小结
第四章 基于端到端深层CNN的自动图像标注
4.1 问题定义
4.2 E2E-DCNN模型构建
4.2.1 DCNN原理
4.2.2 端到端图像标注结构
4.3 E2E-DCNN图像标注模型的结构优化
4.4 实验与分析
4.4.1 实验设
4.4.2 实验结果
4.5 本章小结
第五章 基于真实场景的行人重识别应用
5.1 图像检索应用:行人重识别
5.2 Faster-RCNN原理
5.3 基于数据增强的Faster-RCNN行人重识别
5.4 实验与分析
5.4.1 实验设置
5.4.2 实验结果与展示
5.5 本章小结
总结与展望
总结
展望
参考文献
致谢
个人简历、在学期间的研究成果及发表的学术论文
本文编号:3800418
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 引言
1.1 研究背景及意义
1.2 研究现状及问题
1.3 本文主要创新点
1.4 本文组织结构
第二章 相关技术
2.1 卷积神经网络
2.1.1 深度学习发展分析
2.1.2 CNN
2.2 相似度度
2.3 评价指标
2.3.1 图像标注评价指标
2.3.2 行人重识别评价指标
2.4 本章小结
第三章 基于生成对抗网络的多标签数据增强
3.1 传统数据增强
3.1.1 数据增强原理
3.1.2 传统数据增强方法
3.1.3 传统数据增强的局限性
3.2 生成对抗网络GAN
3.2.1 GAN原理
3.2.2 WGAN原理
3.3 基于ML-WGAN的数据增强
3.4 实验与分析
3.4.1 实验设置
3.4.2 结果展示
3.4.3 ML-WGAN的有效性
3.5 本章小结
第四章 基于端到端深层CNN的自动图像标注
4.1 问题定义
4.2 E2E-DCNN模型构建
4.2.1 DCNN原理
4.2.2 端到端图像标注结构
4.3 E2E-DCNN图像标注模型的结构优化
4.4 实验与分析
4.4.1 实验设
4.4.2 实验结果
4.5 本章小结
第五章 基于真实场景的行人重识别应用
5.1 图像检索应用:行人重识别
5.2 Faster-RCNN原理
5.3 基于数据增强的Faster-RCNN行人重识别
5.4 实验与分析
5.4.1 实验设置
5.4.2 实验结果与展示
5.5 本章小结
总结与展望
总结
展望
参考文献
致谢
个人简历、在学期间的研究成果及发表的学术论文
本文编号:3800418
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3800418.html