融合自注意力机制的跨模态食谱检索方法
发布时间:2023-04-27 00:21
饮食记录是饮食管理的关键环节。为了简化记录过程,研究者提出了基于食物图片的食谱检索技术,通过拍摄的图片检索到对应食谱,并据此生成营养信息,从而提高了记录的便捷性。食谱检索是典型的跨模态检索问题,但与一般问题相比,其主要难点是食谱描述了从原材料到成品的一系列变化过程,而非直接可见的特征,因此模型需要深入理解原材料的处理过程。而当前食谱检索研究工作采用线性方式处理文本,导致其捕捉食谱处理过程中的远距离依赖现象的能力较差。针对这个问题,设计了一种基于自注意力机制的跨模态食谱检索模型。该模型借助Transformer模型中的自注意力机制,捕捉食谱中远距离的依赖关系,同时改进了传统方法中的注意力机制,可以更好地挖掘食谱中的语义。实验结果表明,该模型在食谱检索任务的召回率上比基线方法提高了22%。
【文章页数】:11 页
【文章目录】:
1 引言
2 相关工作
2.1 跨模态检索
2.2 食谱检索
3 模型设计
3.1 模型框架概览
3.2 文字编码模块
3.2.1 Transformer模型
3.2.2 标题编码
3.2.3 原材料编码
3.2.4 步骤编码
3.2.5 环境向量的选择
3.2.6 文字整体编码
3.3 图片编码模块
3.4 联合嵌入模块
3.5 损失函数
3.6 模型训练
4 实验验证
4.1 数据集
4.2 实验设置
4.2.1 实现细节
4.2.2 评价指标
4.3 结果比较
4.4 对照实验
4.4.1 注意力机制
4.4.2 消融研究
4.4.3 参数灵敏度实验
5 总结与期望
本文编号:3802483
【文章页数】:11 页
【文章目录】:
1 引言
2 相关工作
2.1 跨模态检索
2.2 食谱检索
3 模型设计
3.1 模型框架概览
3.2 文字编码模块
3.2.1 Transformer模型
3.2.2 标题编码
3.2.3 原材料编码
3.2.4 步骤编码
3.2.5 环境向量的选择
3.2.6 文字整体编码
3.3 图片编码模块
3.4 联合嵌入模块
3.5 损失函数
3.6 模型训练
4 实验验证
4.1 数据集
4.2 实验设置
4.2.1 实现细节
4.2.2 评价指标
4.3 结果比较
4.4 对照实验
4.4.1 注意力机制
4.4.2 消融研究
4.4.3 参数灵敏度实验
5 总结与期望
本文编号:3802483
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/3802483.html