菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI教程 > Transformer自监督学习食谱检索技术榜单
进阶教程 综合资讯

Transformer自监督学习食谱检索技术榜单

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

如何通过食物图片精准匹配烹饪食谱 刷社交媒体时看到诱人的美食截图,是不是立刻想知

如何通过食物图片精准匹配烹饪食谱

刷社交媒体时看到诱人的美食截图,是不是立刻想知道做法?如今已有技术能通过图片直接检索对应的烹饪食谱。在2021年CVPR(计算机视觉与模式识别会议)上,研究团队提出了一种基于Transformer架构、结合自监督学习训练的新方法,在跨模态图像到食谱的检索任务中刷新了性能纪录。

基于Transformer和自监督学习的食谱检索技术

自监督学习的核心,是让模型从大量未标注数据中自主挖掘规律,生成额外的训练信号。该研究除了常规的“图片-食谱配对”监督训练外,还利用纯文本食谱数据进行自监督学习——模型因此学到更鲁棒的特征表示。

架构上采用双编码器设计:一个处理食谱文本(配料、步骤、标题),另一个处理图像。文本端使用Transformer:多句输入(如配料和步骤)用分层Transformer,单句(如标题)用非分层Transformer。图像端沿用成熟的ResNet和Vision Transformer。提取到的特征在推理时可直接用于索引与检索。

训练采用两种损失函数:监督损失L_pair将同一食谱的文本与图像特征拉近,将不匹配的推远(例如巧克力曲奇的图片搭配千层面的描述,特征距离必须足够大);自监督损失L_rec仅在食谱内部作用——拉近同一食谱中标题、配料等组件的表征,推远不同食谱的组件。直观来看,奶酪通心粉的标题与其配料存在语义关联,模型捕捉这种关联即可学到更优质的食谱表征。关键点在于L_rec不需要图像参与,因此大量纯文本食谱(训练集中66%为纯文本样本)也能发挥作用。实验表明,即便仅在已有的图像-食谱配对数据上计算该自监督损失,检索效果也有显著提升;加入额外纯文本数据后,性能更上一层楼。

实验中开展了双向检索:用图像找食谱、用食谱找图像。在标准基准数据集Recipe1M上,该方法达到当前最优。具体而言,图像到食谱的检索任务中,从1000个候选食谱为一张图像查询,Top-10准确率高达92.9%。也就是说,每1000张食物图像查询,有929张能在前10个候选食谱中找到正确配方。

定性结果显示,模型能精准捕捉图像与食谱中的语义信息,甚至能匹配到细节配料层面——例如“面包”、“大蒜”、“面包条”,或“三文鱼”与“芦笋”这类组合。下图展示部分检索示例,蓝色为查询项,绿色表示正确匹配,前五个结果一目了然。食谱以词云呈现,词越大表示该词在食谱中越常见。

检索结果示意图

论文与代码均已公开,可进一步查阅。该方法在计算机视觉与信息检索领域引发关注,为未来跨模态搜索应用奠定了扎实基础。

研究领域

计算机视觉 | 搜索与信息检索

标签

自监督学习 | CVPR

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多