基于层级语义图嵌入的食物图像语义融合分类算法研究

发布时间:2022-02-05 03:35
  食物图像识别是饮食健康系统的关键技术,层级图嵌入算法是分类算法研究领域的重难点之一。结合层级图嵌入算法的食物图像识别算法在饮食健康与医疗检测等应用场景中有着广泛的应用前景。随着国家将饮食健康提升到了国家战略层面,经过层级结构图嵌入优化过的食物识别算法将在实际生活中表现出越来越重要的作用。食物识别准确率是非常重要的指标,但是由于分类模型的精度和冗余度的限制,使得提高识别准确率的代价高昂。结合层级信息进行食物的粗细混合分类提高使用者的接受度很有价值。如何更好地利用层级信息则是难点,因此基于层级图嵌入结构的食物识别方向是非常具有应用价值的研究课题。本文研究了前沿的层级分类算法,并针对其中自上而下的层级分类算法以及图像语义融合所遇到的难点问题进行了研究分析。充分研究和借鉴了层级语义图嵌入算法,将其与卷积神经网络结合。本文设计了一种基于层级语义图嵌入的食物识别算法。论文的主要工作有:本文针对目前自上而下进行层级分类所造成的层级深层节点的分类精度下降问题,提出了基于层级图嵌入的自下而上的层级分类过程。在本文提出的数据集上,本文提出的算法在细分类精度Top-1提升了7.79%。本文提出了层级搜索阈值... 

【文章来源】:哈尔滨工业大学黑龙江省211工程院校985工程院校

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

基于层级语义图嵌入的食物图像语义融合分类算法研究


树状结构

有向无环图,层级结构


诘毕虏豢山馐偷纳疃壬窬??络的发展指明了方向。层级图结构作为图结构的一个子集,如何借助图嵌入与图卷积的研究成果促进层级图结构在弱监督方面的应用是一个很关键的问题。层级结构分为树状与有向无环图两种,如图1-1与1-2。以往的研究大部分集中于树状层级结构当中,并没有扩展到广义上的有向无环图。层级结构的生成方式有最基本的两种,分别是从上而下的人为预定义以及从下而上的从数据中自生成。目前主流的方式是采用包含更多语义信息的自上而下的方式进行,从而达到能够结合语义信息和图像信息的融合。图1-1树状结构图1-2有向无环图传统的层级分类研究在2013年之前取得了丰硕的研究成果,可分为“平坦分类器”(无视类间差异的图像分类器)与层级关系分类器两个大的种类。“平坦分类器”就是忽略种类间可能存在的类别差异,例如类别间图像特征上或者语义上的相似度。而层级关系分类器则考虑了这种类间差异性和相似性。图1-3梳理了层级分类的演化进度。逐节点局部分类(LCN)[13]、逐父亲节点局部分类(LCPN)[14]、层级间局部分类(LCL)[15]以及全局分类[16]四个分支组成了层级分类家族。这四种算法是四种不同的设计思路,均以损失函数的形式表现在模型训练中。而根据层级结构设计损失函数又可以分为两个部分。首先第一个是代价敏感损失函数,本质是是以节点间的层级上的关系确定一组系数对损失函数进行加权。其次是用层级结构对正则项进行设计。‘在深度神经网络提出后,学术界很多研究者努力将将其运用在层级分类中。Yan等人提出的HD-CNN是非常具有代表性的一个算法,融合了层级结构与深度神经网络,实现了端到端的训练和使用过程。如图1-4所示,HD-CNN本质上是设计了一个两层的树状层级结构,借助这个结构将深度卷积神经网络分为两个主-4-

模型结构,层级结构


哈尔滨工业大学工程硕士学位论文图1-4HD-CNN模型结构图[9]分类算法进行结合,从而达到了能够检测9000类物体的程度。Redmon使用层级Softmax激活函数设计损失函数来生成父子节点的条件概率,并用由上而下的条件概率的累乘计算当前节点的预测概率,当小于设定阈值时则停止向下的搜索并输出当前节点。这种思路借鉴了由上而下的传统层级分类的思路,并且将粗细分类结合到了一起。这种用层级结构模拟条件概率的思路在本论文中得到了改进,是非常值得参考的方向。当然,这种搜索方式也存在着弊端。首先是层级结构的规模。当层级结构规模巨大,例如超过10000个节点时,层级结构由于太深出现细分类上的精度丢失问题。这是由于层级Softmax激活函数算法本质上是一种贪心搜索,寻找到的往往是局部最优解。其次是层级结构仅仅限制于树状结构,对于有向无环图则缺乏相应的解决方案。这两点极大地限制了Yolo9000后续地改进与发展。最后,Yolo9000给出了层级结构结合深度神经网络的一个不错的思路。即不追求分类精度上的提升,而是利用层级结构的特性,做到尽量接近“平坦”分类器的细分精度的前提下,尽量能提供更好的粗分精度。做到“犯更好的错误”2019年,Brust等人[18]在Yolo9000的基础之上对层级Softmax激活函数加以改进。但是仍然存在问题,Clemens所使用的图像特征向量并没有明确指定训练环境和配置模型,同时对比试验少。其文中实验数据以下论断:在同等深度神经网络的情况下,使用层级结构的概率预测模型很难在细分精度上超越“平坦”分类器。此外吴慧等人[19]所设计的CNN-HL-LI模型是专门针对食物场景进行设计的。其主要的精力放在了损失函数的设计上,如图1-5中所展示的算法结构。因为食物间存在着差异性和相似性,并且由于食物间的语义相似度的粗细程?

【参考文献】:
期刊论文
[1]多级卷积特征金字塔的细粒度食物图片识别[J]. 梁华刚,温晓倩,梁丹丹,李怀德,茹锋.  中国图象图形学报. 2019(06)
[2]基于深度学习的食物卡路里估算方法[J]. 梁炎超,李建华.  华东理工大学学报(自然科学版). 2018(02)

硕士论文
[1]“科技新冷战”的框架化解读:美国媒体对中国“制造2025”和德国“工业4.0”的报道比较[D]. 冯蓝宇.上海外国语大学 2019
[2]城市居民购买保健食品的意向、行为及影响因素研究[D]. 刘伟.江南大学 2017
[3]透过工业4.0解析“中国制造2025”[D]. 侯晋珊.北京工业大学 2017
[4]中西饮食文化差异研究[D]. 王娜.河南大学 2013



本文编号:3614484

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3614484.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户658a6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com