基于深度二阶统计特征的图像分类方法研究
发布时间:2021-08-08 18:01
图像分类技术是计算机视觉下最基础、最重要的技术分支。在人脸识别、智慧医疗和移动支付等领域具有很大的应用市场。其中的纹理图像分类,则是图像分类中一项十分重要的技术,在材料纹理识别、管道检测等领域中,有着巨大的应用潜力。随着一系列社交媒体应用、短视频应用的急速发展,互联网上无时无刻都产生着大规模的图像数据,如何有效提取图像中有效信息就变得愈加迫切。深度卷积神经网络具备很强地抽取图像特征表达的能力,而且深度二阶统计特征可以由深度特征本身计算获得,具有更高的计算效率,可获得更加鲁棒的图像表达。因此,本文探索了二阶统计特征信息如何有效地与深度特征结合、注意力机制相结合的图像分类方法研究,其主要工作可以总结如下:(1)提出双线性卷积特征下的高斯描述子(RDGD),并有效应用在纹理数据集等图像任务中。RDGD结合双线性卷积神经网络(B-CNN)和高斯描述符作为新的纹理表示方法,其中由B-CNN计算所得的外积作为协方差的粗略估计被嵌入到高斯表达中。同时为了克服高维小样本情况下,估计所得样本协方差不太鲁棒,在前一步基础上,采用矩阵幂归一化操作,消除了协方差粗略估计带来的影响。在三个纹理数据库上的实验结果...
【文章来源】:大连大学辽宁省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图0.1图像分类技术
-3-割,甚至也为语音识别领域和自然语言处理领域也提供了方法借鉴。FashionAI全球挑战赛华为云垃圾分类细粒度自然物种分类食物分类图0.2图像分类任务相关的一些比赛Fig.1.2Somecompetitionsrelatedtoimageclassificationtasks1.2研究现状近几年来,图像分类技术成为了计算机视觉中最为热门的研究方向,诸多研究人员聚集在此方向,产生了许多优秀的工作。总结来说,图像分类技术从建模方法的角度可以分为三类:一是基于词包模型(Bag-of-Words);二是在卷积神经网络(ConvolutionalNeuralNetwork,CNN)基础之上;三是CNN与传统方法结合的图像分类方法。接下来,将通过对以上三个图像分类方法对国内外相关工作研究进展进行描述。1.2.1基于词包模型的图像分类方法起初,词包模型来源于自然语言处理(NaturalLanguageProcessing,NLP)领域,对文档中单词出现的频率建模分析来对文档进行量化表达。Csurka等人[1]首次在计算机视觉相关任务中引入词包的概念,并逐渐形成了包括底层特征提娶特征编码、特征汇聚、分类器分类四部分[2]的分类框架。首先,对图像采用密集提取的方式,根据一定步长和特定的尺度从图像中提取出许多局部特征描述,其中常用的局部特征描述有尺度不变特征转换[3]、方向梯度直方图[4]和局部二值模
-11-图0.1五种不同VGGNet配置结构图[13]Fig.2.1FivedifferentVGGNetconfigurationstructurediagrams[13]本文中,第3章相关工作中将VGGNet-16作为预训练模型,提取其最后一个卷积层的深度特征,然后再进行随后一系列的高阶统计建模操作,详情见本文第3章节。2.1.2ResNet上一部分提到的VGGNet已经表明CNN的深度对模型的效果起着至关重要的作用。但是当更深的网络开始逐步收敛时,模型就会出现退化问题。出乎意料的是,这并不是因为模型出现过拟合引起的[38,39]。He等人提出一种深度残差网络—ResNet[16],有效缓解了网络模型训练过程中的退化问题。改变之前直接将每个堆叠的层来拟合潜在的分布,而是显示地让这些堆叠层来拟合潜在的残差分布。形式上,定义H为需要拟合的潜在分布,He等人将要拟合的分布转换为拟合映射FxHxx,原始的映射就被转换为Fxx。值得注意的是,通过转换要拟合的映射,可以使得原始映射变得更加容易优化[16]。由以上拟合映射函数
【参考文献】:
期刊论文
[1]图像物体分类与检测算法综述[J]. 黄凯奇,任伟强,谭铁牛. 计算机学报. 2014(06)
博士论文
[1]基于高斯分布建模的图像分类方法研究[D]. 王旗龙.大连理工大学 2018
硕士论文
[1]图像分类中深度特征的二阶统计建模方法研究[D]. 孙秋乐.大连大学 2018
本文编号:3330420
【文章来源】:大连大学辽宁省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图0.1图像分类技术
-3-割,甚至也为语音识别领域和自然语言处理领域也提供了方法借鉴。FashionAI全球挑战赛华为云垃圾分类细粒度自然物种分类食物分类图0.2图像分类任务相关的一些比赛Fig.1.2Somecompetitionsrelatedtoimageclassificationtasks1.2研究现状近几年来,图像分类技术成为了计算机视觉中最为热门的研究方向,诸多研究人员聚集在此方向,产生了许多优秀的工作。总结来说,图像分类技术从建模方法的角度可以分为三类:一是基于词包模型(Bag-of-Words);二是在卷积神经网络(ConvolutionalNeuralNetwork,CNN)基础之上;三是CNN与传统方法结合的图像分类方法。接下来,将通过对以上三个图像分类方法对国内外相关工作研究进展进行描述。1.2.1基于词包模型的图像分类方法起初,词包模型来源于自然语言处理(NaturalLanguageProcessing,NLP)领域,对文档中单词出现的频率建模分析来对文档进行量化表达。Csurka等人[1]首次在计算机视觉相关任务中引入词包的概念,并逐渐形成了包括底层特征提娶特征编码、特征汇聚、分类器分类四部分[2]的分类框架。首先,对图像采用密集提取的方式,根据一定步长和特定的尺度从图像中提取出许多局部特征描述,其中常用的局部特征描述有尺度不变特征转换[3]、方向梯度直方图[4]和局部二值模
-11-图0.1五种不同VGGNet配置结构图[13]Fig.2.1FivedifferentVGGNetconfigurationstructurediagrams[13]本文中,第3章相关工作中将VGGNet-16作为预训练模型,提取其最后一个卷积层的深度特征,然后再进行随后一系列的高阶统计建模操作,详情见本文第3章节。2.1.2ResNet上一部分提到的VGGNet已经表明CNN的深度对模型的效果起着至关重要的作用。但是当更深的网络开始逐步收敛时,模型就会出现退化问题。出乎意料的是,这并不是因为模型出现过拟合引起的[38,39]。He等人提出一种深度残差网络—ResNet[16],有效缓解了网络模型训练过程中的退化问题。改变之前直接将每个堆叠的层来拟合潜在的分布,而是显示地让这些堆叠层来拟合潜在的残差分布。形式上,定义H为需要拟合的潜在分布,He等人将要拟合的分布转换为拟合映射FxHxx,原始的映射就被转换为Fxx。值得注意的是,通过转换要拟合的映射,可以使得原始映射变得更加容易优化[16]。由以上拟合映射函数
【参考文献】:
期刊论文
[1]图像物体分类与检测算法综述[J]. 黄凯奇,任伟强,谭铁牛. 计算机学报. 2014(06)
博士论文
[1]基于高斯分布建模的图像分类方法研究[D]. 王旗龙.大连理工大学 2018
硕士论文
[1]图像分类中深度特征的二阶统计建模方法研究[D]. 孙秋乐.大连大学 2018
本文编号:3330420
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3330420.html