基于图像内容理解的图片自动管理方法研究
发布时间:2024-09-22 20:59
随着数字媒体技术的不断发展,人们的多媒体信息也变得日益丰富。与此同时,一个显著的问题是,如何有效的管理这些多媒体资源。近年来,国内外对此已有一些初步的研究,但大都不太系统,在实际应用过程中也有很多问题。针对于此,本文探讨了通过图像内容理解的方式对图片进行分类管理的方法。具体将从以下几部分展开:图像的场景分析、特定目标识别中特征学习的有效方法探究(以人脸识别到人脸验证的迁移为例)、特征搜索算法设计优化与实现等。对于面向图像自动管理的场景分析部分,本文首先分析了原始图像分类中单类别分类的目标局限性,在此基础上提出了一种适应于日常生活照片的多标签场景分类网络。其次,分类网络的基模型采用一个计算精简,移动端友好的Shufflenet网络作为基础结构,避免了常见网络分类需要在服务器部署,并由网络传输等带来的一系列包括但不限于数据隐私,网络延迟、模型过大的存储等问题。再次,作为对基础网络的一个优化,引入了注意力模型,通过深度卷积网络通道上的加权使分类模型对数据有更好的适应性。此外,对于损失函数,考虑到多标签分类网络中正负标签比例不均衡的情况,设计了一个均衡的二元交叉熵损失函数,以对数据更好的建模。最...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
序言
1 引言
1.1 选题背景与意义
1.2 研究现状
1.2.1 场景分类
1.2.2 特定目标(人脸)识别
1.2.3 图像搜索
1.3 研究内容及章节安排
2 面向图片自动管理的场景分类
2.1 基于传统特征的场景分类
2.1.1 图像预处理
2.1.2 图像增强
2.1.3 特征提取
2.1.4 模式分类
2.2 基于深度学习的场景分类
2.2.1 场景分类基础网络
2.2.2 基础网络的通道关注改进
2.2.3 多标签分类及损失函数实现
2.2.4 网络整体结构
2.2.5 多标签场景分类实现
2.3 本章小结
3 面向图片自动管理的特定目标(人脸)识别
3.1 人脸识别处理概览
3.1.1 人脸检测
3.1.2 人脸对齐
3.1.3 人脸特征提取与人脸识别
3.2 人脸识别损失函数设计
3.2.1 类内损失
3.2.2 类间损失
3.2.3 去冗余项
3.3 网络选择
3.3.1 网络基础结构选择
3.3.2 激活函数选择
3.4 人脸识别网络实现及其特征迁移
3.4.1 网络概览
3.4.2 实验结果
3.5 本章小结
4 图片自动管理中的高效搜索
4.1 基于倒排表的近似搜索算法
4.2 基于分段矢量量化的近似搜索算法
4.3 近似搜索算法实现
4.3.1 近似搜索算法速度/内存使用对比
4.3.2 Facebook Faiss近似搜索库PQ算法优化
4.3.3 分段矢量量化召回率与近邻个数关系
4.4 本章小结
5 实验环境搭建及实验结果
5.1 数据集准备
5.2 神经网络搭建
5.3 网络训练
5.4 实测结果
5.4.1 场景分类结果
5.4.2 人脸近似搜索结果
5.5 本章小结
6 总结与未来展望
6.1 论文总结
6.2 未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
本文编号:4006099
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
序言
1 引言
1.1 选题背景与意义
1.2 研究现状
1.2.1 场景分类
1.2.2 特定目标(人脸)识别
1.2.3 图像搜索
1.3 研究内容及章节安排
2 面向图片自动管理的场景分类
2.1 基于传统特征的场景分类
2.1.1 图像预处理
2.1.2 图像增强
2.1.3 特征提取
2.1.4 模式分类
2.2 基于深度学习的场景分类
2.2.1 场景分类基础网络
2.2.2 基础网络的通道关注改进
2.2.3 多标签分类及损失函数实现
2.2.4 网络整体结构
2.2.5 多标签场景分类实现
2.3 本章小结
3 面向图片自动管理的特定目标(人脸)识别
3.1 人脸识别处理概览
3.1.1 人脸检测
3.1.2 人脸对齐
3.1.3 人脸特征提取与人脸识别
3.2 人脸识别损失函数设计
3.2.1 类内损失
3.2.2 类间损失
3.2.3 去冗余项
3.3 网络选择
3.3.1 网络基础结构选择
3.3.2 激活函数选择
3.4 人脸识别网络实现及其特征迁移
3.4.1 网络概览
3.4.2 实验结果
3.5 本章小结
4 图片自动管理中的高效搜索
4.1 基于倒排表的近似搜索算法
4.2 基于分段矢量量化的近似搜索算法
4.3 近似搜索算法实现
4.3.1 近似搜索算法速度/内存使用对比
4.3.2 Facebook Faiss近似搜索库PQ算法优化
4.3.3 分段矢量量化召回率与近邻个数关系
4.4 本章小结
5 实验环境搭建及实验结果
5.1 数据集准备
5.2 神经网络搭建
5.3 网络训练
5.4 实测结果
5.4.1 场景分类结果
5.4.2 人脸近似搜索结果
5.5 本章小结
6 总结与未来展望
6.1 论文总结
6.2 未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
本文编号:4006099
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/4006099.html
上一篇:基于零售渠道扩展的跨渠道消费行为分析
下一篇:没有了
下一篇:没有了