进阶教程综合资讯

Transformer自监督学习食谱检索技术榜单

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

如何通过食物图片精准匹配烹饪食谱刷社交媒体时看到诱人的美食截图，是不是立刻想知

如何通过食物图片精准匹配烹饪食谱

刷社交媒体时看到诱人的美食截图，是不是立刻想知道做法？如今已有技术能通过图片直接检索对应的烹饪食谱。在2021年CVPR（计算机视觉与模式识别会议）上，研究团队提出了一种基于Transformer架构、结合自监督学习训练的新方法，在跨模态图像到食谱的检索任务中刷新了性能纪录。

基于Transformer和自监督学习的食谱检索技术

自监督学习的核心，是让模型从大量未标注数据中自主挖掘规律，生成额外的训练信号。该研究除了常规的“图片-食谱配对”监督训练外，还利用纯文本食谱数据进行自监督学习——模型因此学到更鲁棒的特征表示。

架构上采用双编码器设计：一个处理食谱文本（配料、步骤、标题），另一个处理图像。文本端使用Transformer：多句输入（如配料和步骤）用分层Transformer，单句（如标题）用非分层Transformer。图像端沿用成熟的ResNet和Vision Transformer。提取到的特征在推理时可直接用于索引与检索。

训练采用两种损失函数：监督损失L_pair将同一食谱的文本与图像特征拉近，将不匹配的推远（例如巧克力曲奇的图片搭配千层面的描述，特征距离必须足够大）；自监督损失L_rec仅在食谱内部作用——拉近同一食谱中标题、配料等组件的表征，推远不同食谱的组件。直观来看，奶酪通心粉的标题与其配料存在语义关联，模型捕捉这种关联即可学到更优质的食谱表征。关键点在于L_rec不需要图像参与，因此大量纯文本食谱（训练集中66%为纯文本样本）也能发挥作用。实验表明，即便仅在已有的图像-食谱配对数据上计算该自监督损失，检索效果也有显著提升；加入额外纯文本数据后，性能更上一层楼。

实验中开展了双向检索：用图像找食谱、用食谱找图像。在标准基准数据集Recipe1M上，该方法达到当前最优。具体而言，图像到食谱的检索任务中，从1000个候选食谱为一张图像查询，Top-10准确率高达92.9%。也就是说，每1000张食物图像查询，有929张能在前10个候选食谱中找到正确配方。

定性结果显示，模型能精准捕捉图像与食谱中的语义信息，甚至能匹配到细节配料层面——例如“面包”、“大蒜”、“面包条”，或“三文鱼”与“芦笋”这类组合。下图展示部分检索示例，蓝色为查询项，绿色表示正确匹配，前五个结果一目了然。食谱以词云呈现，词越大表示该词在食谱中越常见。

检索结果示意图

论文与代码均已公开，可进一步查阅。该方法在计算机视觉与信息检索领域引发关注，为未来跨模态搜索应用奠定了扎实基础。

研究领域

计算机视觉 | 搜索与信息检索

Transformer自监督学习食谱检索技术榜单

摘要

如何通过食物图片精准匹配烹饪食谱

研究领域

标签

相关文章推荐