基于自编码器和生成对抗网络的图像识别方法研究

发布时间：2021-06-26 10:29

　　图像识别的核心是如何学习到判别性强,鲁棒的图像特征。性能优良的特征有助于图像识别与分析。但因图像内容非常复杂,易受遮挡、光照、尺寸、形变等因素的影响,获得判别能力强的特征非常困难。如何能够有效地提取图像特征,目前仍然是人工智能,模式识别和计算机视觉等领域研究的重点内容之一,本文以自编码器和生成对抗网络两种模型为基础框架,研究了深度学习方法在图像特征提取及其在图像识别中的应用。深度学习具有强大的,从一般抽象到高度抽象的多层次数据表征能力,它持续吸引着众多的研究人员和资金投入其中。虽然深度学习已经在图像,语音和信号处理等多个领域都取得较好的成绩,但是仍然存在一些问题和需要改进的地方,比如如何将鉴别信息有效地嵌入到特征学习中,如何将大量的无标记数据融入到有标记数据中统一地进行学习,如何提取到可解释的数据表示等问题,本文主要针对以上问题,提出几种基于自编码器和生成对抗网络的深度学习方法来提高模型的泛化能力。本文主要工作包含以下几个方面:（1）提出了一种标签一致性约束的稀疏自编码器模型。自编码器是一种具有快速推理结构的神经网络模型,如稀疏自编码器,非负约束自编码器等,但是这些自编码器都忽略了数据...

【文章来源】：江南大学江苏省 211工程院校教育部直属院校

【文章页数】：107 页

【学位级别】：博士

【部分图文】：

图１．２：深度学习发展史??Ｆｉｇ．?１．２：?Ｈｉｓｔｏｒｙ?ｏｆ?ｄｅｅｐ?ｌｅａｒｎｉｎｇ．??？

流程图,图像识别,流程图

?江南大学博士学位论文???图像采集——图像预处理——特征提取——图像识别??图１．３：图像识别流程图??Ｆｉｇ．?１．３：?Ｐｉｐｅｌｉｎｅ?ｏｆ?ｉｍａｇｅ?ｒｅｃｏｇｎｉｔｉｏｎ．??提龋目前，特征仍然没有非常严格的定义，特征的精确定义往往与所面对的问题或任??务有关。在图像识别中，良好的特征具有鲁棒性好、判别性强，能使后续识别任务变得简??单等特点％。众多的研究致力于提取判别性强的鲁棒特征表示，图像特征提取的发展主??要经历了三个阶段：人工设计特征，浅层学习特征和深度学习特征Ｉ２７］。??人工设计的特征通常是指通过对不同种类的图像观察分析后，人为设计的图像特征。??包括图像颜色特征，纹理特征和局部特征等。颜色矩＿?（Ｃｏｌｏｒ?Ｍｏｍｅｎｔｓ）是一种有效的??颜色特征表示方法，由于颜色信息主要分布于低阶矩中，所以常用一阶矩均值，二阶矩??方差和三阶矩斜度来表示。颜色直方图［２９：也是一种颜色特征表示方法，它通过计算各??种色彩在整幅图中所占的比例来对图像进行描述。描述图像的纹理特征主要包括局部二??值模式丨３１丨（Ｌｏｃａｌ?Ｂｉｎａｒｙ?Ｐａｔｔｅｒｎｓ，?ＬＢＰ）和方向梯度直方图丨３０丨（Ｈｉｓｔｏｇｒａｍ?ｏｆ?Ｏｒｉｅｎｔｅｄ??Ｇｒａｄｉｅｎｔ，?ＨＯＧ）等方法。ＬＢＰ是非常强大的纹理运算符，由于其计算简单、辨别力强??且对光照变化鲁棒，所以这种方法己成功应用于指纹识别，车牌识别和人脸识别等领??域。Ｈ〇Ｇ特征是另外一种经典的图像纹理特征方法，其主要思想是：在一副图像中，局??部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。这种方法最早是应??用于静态图像的行人检测上，后来应用于

示意图,多层感知机,示意图,卷积

?江南大学博士学位论文???隐含层??ａ??（——、＇??图２．１：多层感知机结构示意图??Ｆｉｇ．?２．１：?Ｔｈｅ?ａｒｃｈｉｔｅｃｕｒｅ?ｏｆ?Ｍｕｌｔｉｌａｙｅｒ?ｐｅｒｃｅｐｔｉｏｎ．??Ｊ｛９）?－?ａｒｇｍｉｎＥ＾ｐ＾Ｊｌｙ?－?／（ａ：；０）｜｜ｉ．?（２．１．３）??ｕ??前向传播过程?■??输入：训练数据与标签｛ｘ，ｙ｝．??输出：代价函数Ｊ．??１：?：ｒ经由输入层得到／Ｉ⑶＝＿ｒ．??２：前向传播：??ｆｏｒ?ｋ?＝?＼?Ｉ?ｄｏ??ａ（ｋ）?＝?ｈ（ｋ）?＋?Ｗ（ｋ）ｈ（ｋ－ｉ）??＂⑷＝／（ａ⑷）??ｅｎｄ?ｆｏｒ??３：计算模型输出ｐ??４：计算损失函数Ｊ?＝?Ｌ（仏ｙ）．??前向传播与反向传播当使用ＭＬＰ接收输入；ｒ，信息通过网络向前流动，输入ｘ经由??隐藏单兀最终到达输出层产生设，这是前向传播（Ｆｏｒｗａｒｄ?Ｐｒｏｐａｇａｔｉｏｎ）的过程。前向传??播会产生一标量代价函数Ｊ（６＞）?＝?其中０包含所有参数权重和偏置６。反向传??播（Ｂａｃｋ?Ｐｒｏｐａｇａｔｉｏｎ）算法又将代价函数的信息经由ＭＬＰ向后传播，以计算梯度。以深度??为Ｚ的ＭＬＰ为例，单个样本（ｊｔ．Ｗ前向传播和反向传播的算法如算法１和２所示。??２．１．２?卷积神经网络??本小节将介绍卷积祌经网络，卷积神经网络（Ｃｏｎｖｏｌｕｔｉｏｎａｌ?Ｎｅｕｒａｌ?Ｘｅｔｗｏｒｋ，ＣＸＸ），??也常被简称为卷积网络（Ｃｏｎｖｏｌｕｔｉｏｎａｌ?Ｎｅｔｗｏｒｋ），是一种专门用来处理具有类似网格结??１０??

【参考文献】：
期刊论文
[1]Visual interpretability for deep learning:a survey[J]. Quan-shi ZHANG,Song-chun ZHU.  Frontiers of Information Technology & Electronic Engineering. 2018(01)
[2]改进的投影孪生支持向量机[J]. 陈素根,吴小俊.  电子学报. 2017(02)
[3]拉普拉斯多层极速学习机[J]. 丁世飞,张楠,史忠植.  软件学报. 2017(10)

博士论文
[1]机器学习在计算机视觉和癌症生物信息学中的若干关键问题研究[D]. 于祥春.吉林大学 2019
[2]解纠缠表示学习与概念空间构建[D]. 李泽健.浙江大学 2019
[3]基于深度学习的图像分类方法研究[D]. 孟丹.华东师范大学 2017

本文编号：3251173

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3251173.html

上一篇：基于多源数据关联分析的关键技术应用研究
下一篇：基于三维可视化平台的场景管理的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|