多特征融合的场景分类方法研究

发布时间：2019-08-24 15:54

【摘要】：由于多媒体技术和互联网网络技术的快速发展,产生大量数字图像。依靠传统人工方法进行分类,及其繁琐且耗时。针对这一现象,智能图像分类成为一个研究热点。目前,研究人员已经提出很多图像场景分类算法。由于图像中包含的各种物体信息非常丰富,彼此之间的空间分布错综复杂,基于单一特征的描述方法不能完全描述图像的信息。针对单一特征描述的不足,本文提出了基于多特征融合的图像场景分类算法。本文首先分析了图像场景分类的研究背景、国内外研究现状及相关应用。接着介绍了本文用到的模型和技术,包括概率潜在语义分析(PLSA)、局部约束线性编码(LLC)和支持向量机(SVM)的工作原理。接着在已有的模型和算法上加入多种底层融合特征,进行场景分类实验,并对结果进行分析和对比。主要研究内容如下:一方面,提出了一种基于PLSA的多特征融合图像场景分类方法。该方法分别提取图像的LBP特征和SIFT特征,两者组合起来描述图像场景能够提供更丰富的信息,特征之间能够达到优势互补。将两种特征使用词袋模型进行量化,生成对应特征的词袋表示。然后将两种特征的词袋表示直接连接,得到图像的词袋表示。再将图像的词袋表示结合PLSA模型来学习,得到图像集的视觉主题分布和潜在主题分布。最后将图像的潜在主题分布结合SVM分类器进行分类判别,得到最终的实验结果。实验部分,首先最优化PLSA模型的参数,然后将该算法与单一特征场景分类算法以及其它场景分类算法做对比,实验结果表明该算法提高了分类准确率,验证了基于PLSA模型的多特征融合框架的可行性。另一方面,提出一种基于稀疏编码的多特征融合场景分类方法,有效缓解了单一特征在描述图像特征时的局限性。该方法首先分别提取图像的GIST特征、SIFT特征和PHOG特征,然后使用局部约束线性编码的方法对SIFT特征进行稀疏编码,得到SIFT特征的稀疏向量表示。接着将SIFT特征稀疏向量表示、GIST特征和PHOG特征进行串联融合,得到图像的特征表示。然后将图像的特征向量表示结合多类线性SVM分类器进行分类,得到最后的分类结果。实验结果表明,该方法与其他分类框架进行对比,具有较好的分类性能。验证了特征融合分类模型的有效性与稳定性。
【图文】：

模型参数,模型图

（ｂ）邋ＰＬＳＡ概率分布的矩阵分解图逡逑图２．１邋ＰＬＳＡ模型图逡逑２．１．２模型参数逡逑利用ＰＬＳＡ模型来发现文本当中的主题。类似的，在场景分类中，ＰＬＳＡ将一幅图像类逡逑比成文档来发现图像所属的类别，即主题。图像中的基本信息便通过视觉词来描述，并把逡逑图像的语义作为潜在的主题。假设数据集为Ｄ邋＝邋｛0２，．．．，＾｝，视觉阶二｛Ｗｌ，ｗ２，．．．，ｗＭ｝，逡逑共现词表NB邋＝邋；７（＇，心为图像和视觉单词共同形成，NB邋＝邋？（ｗｙ，ｒｆ，）表示单词ｗ，出现在图像逡逑彳中的频次，该模型将每一个观察值和隐含变量２邋６２邋＝邋｜２１，２２，．．．，２４丨关联起来。尸（＾；）表示逡逑观测到图像邋＜邋的概率，表示在隐含变量４条件下视觉单词出现的概率，即各个逡逑主题的特征。表示在隐变量空间中图像式的概率分布，仅表示某个特定文档的主逡逑题分布，不能给未知图像带来任何的先验知识。ＰＬＳＡ模型参数是两个条件概率分尸丨ｗｊｚ；）和尸＆｜00，它们都满足多项分布，可以用ＥＭ算法计算得到。逡逑２．１．３参数估计算法逡逑

线性可分

六十年代初，，Ｖａｐｎｉｋ［１Ｇ］领导的ＡＴ＆ＴＢｅｌ】实验室提出了一是一种有监督的分类技术，一开始应用于模式识别领域。年代，ＳＶＭ才得到迅速发展和有效改进。通俗来讲，ＳＶＭ种对线性和非线性数据进行分类的方法。ＳＶＭ是一种算的训练样本投射到高维空间上，通过核技巧方法在高维空Ｍ是一种有效的数据挖掘工具，可以用于对象识别、手写预测验证等领域。通常ＳＶＭ可以分为线性和非线性。逡逑名思义就是可以找到一个超平面，它将待分类的两种样本区分后离该平面尽可能远，图２．２为线性可分示例图，类Ｂ则在所划平面的左下方。逡逑个逡逑
【学位授予单位】：广西师范大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.41

【参考文献】