当前位置:主页 > 科技论文 > 自动化论文 >

融合注意力和动态语义指导的图像描述模型

发布时间:2018-08-18 18:06
【摘要】:针对当前图像语义描述生成模型对图像内目标细节部分描述不充分问题,提出了一种结合图像动态语义指导和自适应注意力机制的图像语义描述模型。该模型根据上一时刻信息预测下一时刻单词,采用自适应注意力机制选择下一时刻模型需要处理的图像区域。此外,该模型构建了图像的密集属性信息作为额外的监督信息,使得模型可以联合图像语义信息和注意力信息进行图像内容描述。在Flickr8K和Flickr30K图像集中进行了训练和测试,并且使用了不同的评估方法对所提模型进行了验证,实验结果表明所提模型性能有较大的提高,尤其与Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度达到6.3%、4.0%、7.9%、3.9%、17.3%;与Soft-Attention相比,得分分别提高了1.9、2.4、3.3、1.5、2.74,提升幅度达到2.8%、5.5%、11.1%、7.5%、14.8%。
[Abstract]:An image semantic description model based on dynamic semantic guidance and adaptive attention mechanism is proposed to solve the problem of inadequate description of target details in the current image semantic description generation model. According to the information of the previous moment, the model predicts the words of the next moment, and adopts the adaptive attention mechanism to select the image region to be processed by the next moment model. In addition, the model constructs the dense attribute information of the image as additional monitoring information, which enables the model to combine image semantic information and attention information to describe the image content. The proposed model is trained and tested in Flickr8K and Flickr30K images, and different evaluation methods are used to verify the proposed model. The experimental results show that the performance of the proposed model is greatly improved, especially compared with the Guiding-Long Short-Term Memory model. The score increased by 4.1 / 1.82.40.80.81, and reached 6.3 / 4.07.9and 3.9m / 17.3.The score increased by 1.92.43.31.52.74 respectively compared with Soft-Attention, and the range of promotion reached 2.80.11.511.7.5and 14.80.The score increased by 1.92.43.31.52.74, respectively, and reached the range of 2.81.7.5.
【作者单位】: 江南大学物联网技术应用教育部工程研究中心;
【基金】:中央高校基本科研业务费专项资金No.JUSRP51510~~
【分类号】:TP183;TP391.41

【相似文献】

相关期刊论文 前10条

1 刘清堂;金晶;赵刚;程文青;杨宗凯;;学习资源权利描述模型及执行策略研究[J];计算机应用研究;2006年12期

2 孙伟,翟玉庆;一种以动作状态为中心的数字权限描述模型[J];计算机工程与应用;2005年10期

3 孙伟,翟玉庆;一种采用一阶动态逻辑表示的数字权限描述模型[J];计算机应用;2005年04期

4 彭宇行;;CHDL模型探讨[J];计算技术与自动化;1990年03期

5 张英朝,张维明,肖卫东,沙基昌;虚拟组织中面向共享的信息统一描述模型研究[J];系统工程学报;2005年01期

6 李行;张立臣;;面向方面的CORBA模型[J];现代计算机(专业版);2008年05期

7 刘超;蒋祖华;刘宇龙;;中医推拿动素的规范化描述模型与实例应用[J];计算机工程;2009年11期

8 许占民,张全,景韶宇,陆长德;面向产品造型设计的形态风格描述模型构建[J];计算机应用研究;2005年11期

9 何建华;刘耀林;俞艳;;不确定方向关系的模糊描述模型[J];武汉大学学报(信息科学版);2008年03期

10 李文杰;冯志勇;赵德新;;基于本体的零件描述模型研究[J];计算机工程;2007年08期

相关会议论文 前1条

1 张晓宁;李学庆;;一种基于MDA的UIMS实现[A];第四届和谐人机环境联合学术会议论文集[C];2008年

相关硕士学位论文 前4条

1 白晓磊;面向服务计算的服务描述模型研究[D];电子科技大学;2012年

2 郑丹丹;动态对象不确定方向关系描述与推理[D];燕山大学;2010年

3 杨海;基于MPEG-7标准的人脸结构描述模型的研究[D];黑龙江大学;2013年

4 代一帆;基于角色协同的公众参与评估系统的设计与实现[D];西南交通大学;2009年



本文编号:2190264

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2190264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0245c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com