其他资讯

彭宇新团队CVPR 2026研究：多模态大模型精准解析物种关系图谱

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

北京大学彭宇新团队提出TARA方法，通过将外部分类学知识与视觉表征对齐，使多模态大模

多模态大模型在视觉理解领域已取得显著突破，从图像分类到视觉问答，其能力持续扩展。然而，面对现实世界中普遍存在的层级结构——无论是生物分类的“界门纲目科属种”，还是商品体系或医学诊断中的多级标签——现有模型往往显得力不从心。这些概念并非扁平排列，而是构成了逻辑严密的树状网络。

当前大多数视觉模型基于扁平分类框架训练，在处理层级任务时，常出现预测结果在上下级间矛盾，或无法形成连贯分类路径的问题。开放世界识别则带来更大挑战：当模型遭遇训练集中从未出现的新类别时，它该如何应对？例如在生物识别中，新物种的发现是常态，模型不能仅依赖记忆，更需要理解类别间的内在关系，从而进行合理推断。

针对这些核心难题，北京大学王选计算机研究所彭宇新教授团队提出了创新解决方案：TARA（分类学感知表征对齐）。该研究的思路极为巧妙——既然模型缺乏层级知识，便从外部进行“知识注入”。团队利用生物基础模型中已结构化的分类学知识，将其与多模态大模型的中间视觉表征进行对齐。这使得模型不仅能识别物体，更能内化其间的谱系关系，从而在层级识别任务中表现得更一致、更智能，并显著提升对未知类别的处理能力。

TARA 如何赋予模型层级认知能力

为验证TARA的有效性，研究团队在多个数据集和评价指标上进行了系统性实验，结果令人信服。

在已知类别识别能力测试中，团队选用包含完整生物分类层级的iNaturalist-2021数据集。实验表明，引入TARA方法后，模型的层级识别性能获得稳定提升。以Qwen3-VL-2B模型为例，在植物子集上，其层级一致性准确率从9.23%提升至12.78%，叶节点准确率也从31.96%提升到32.66%。对于规模更大的Qwen2.5-VL-3B模型，提升更为显著，在动物子集上的层级一致性准确率达到24.02%。这些数据证实，TARA能帮助不同规模的模型更精准地把握类别间的层级逻辑。

模型是真正学会了“推理”，还是仅仅“记住”了数据？为回答这一问题，团队在TerraIncognita数据集上进行了测试，该数据集包含许多稀有乃至科学界尚未正式记录的物种。结果具有说服力：在未知类别场景下，模型在“科”和“目”层级上的识别F1分数仍有显著提升。这证明TARA赋予模型的不仅是记忆能力，更是一种基于层级关系的泛化推理能力。

为进一步探究TARA的作用机制，研究人员进行了线性探针实验。他们提取模型学习到的视觉特征，并用简单线性分类器测试。结果显示，使用TARA方法后，特征的判别力明显增强，分类准确率从基线模型的13.30%提升到18.30%。这证实TARA确实能帮助模型学习到更具区分度和结构性的视觉表示。

这种层级理解能力的提升，甚至能惠及更复杂的任务。在需要结合图像与知识的ImageWikiQA视觉问答数据集上，引入TARA的模型准确率达到51.40%，优于仅进行强化学习微调的模型。这表明，对层级关系的深刻理解，是通向更高阶视觉智能的关键。

在训练效率方面，TARA同样表现出优势。实验发现，在训练早期，采用TARA的模型性能便超越基线模型，并能以更快速度收敛。由于该方法仅增加少量投影层参数，其带来的额外计算开销微乎其微，是一种高效的增强策略。

面向层级识别的系统性实验设计

这项研究的严谨性，体现在其设计周全的实验框架上。从数据集选择、模型训练到评价指标，每一步都精准针对层级视觉识别的核心问题。

数据集方面，团队选取了三个代表性基准：iNaturalist-2021用于测试已知类别的层级识别；TerraIncognita用于挑战开放世界中的未知类别识别；ImageWikiQA则用于评估需要知识推理的复杂视觉问答能力。

模型训练融合了两种关键思想。首先是“无思维”强化学习微调，研究人员发现，在分类任务中，让模型直接输出答案比要求其进行显式推理链效果更佳。在此基础上，引入了核心的TARA表征对齐方法。该方法包含两部分：一是视觉表示对齐，将生物基础模型提取的、蕴含分类学知识的图像特征，与多模态模型的视觉特征在共享空间中对齐；二是标签表示对齐，将分类学标签的语义嵌入与模型生成答案的语义进行对齐。通过这种交替训练策略，模型在优化分类目标的同时，潜移默化地吸收了层级结构知识。

评价体系也经过精心设计，不再仅看最终叶节点准确率。层级一致性准确率要求模型预测的整条分类路径必须完全正确；点重叠比率统计预测路径中正确节点的比例；严格点重叠比率更进一步，要求正确的节点必须是连续的。这套组合指标，能全方位衡量模型对层级结构的理解和遵从程度。

开启开放世界视觉识别新路径

总体而言，TARA研究的意义超越了其方法本身，为多模态大模型的发展提供了新思路。

它直击当前模型在层级识别上的痛点，通过知识注入的方式，显著提升了预测的逻辑一致性和可靠性。更重要的是，它为开放世界识别这一长期挑战提供了可行路径——让模型学会利用已知的层级关系推断未知，而非仅仅匹配见过的模式。

从方法论看，这种通过中间表征对齐注入领域知识的方式，具有很强的普适性。其思路可迁移至医学影像分析、商品分类、知识图谱构建等其他同样依赖层级结构的领域，为垂直领域与大模型的结合打开了新的大门。

长远来看，这项研究指向一个更宏大的目标：构建真正理解世界结构的视觉智能系统。未来的视觉模型，不应仅识别像素中的物体，更应理解物体之间复杂的、层次化的关系网络。TARA在这条道路上，迈出了坚实一步。

TARA 背后的研究者

这项工作的主要完成者是北京大学王选计算机研究所博士生何胡凌霄，他的研究方向聚焦于细粒度多模态大模型。在彭宇新教授指导下，他在CVPR、ICLR等顶级会议上发表了多篇学术论文，并曾获得国家奖学金等多项荣誉。

论文通讯作者彭宇新教授，是北京大学王选计算机研究所博士生导师，IEEE/CCF等多个学会会士，国家杰出青年科学基金获得者。他在多媒体分析与计算机视觉领域深耕多年，发表了大量高水平学术论文，提出了“弱监督深度图像细粒分类”等创新方法，其团队在多项国际评测与竞赛中屡获佳绩。彭宇新教授的研究成果不仅在学术界影响广泛，也在国家多个部委及互联网企业中得到实际应用。

来源：互联网

上一篇 元萝卜OpenClaw实体交互测评：从养虾热到真实世界的技术跃迁 下一篇 CVPR 2026精选：程学旗团队随机剪枝AI攻击策略，提升对抗样本通用性

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

彭宇新团队CVPR 2026研究：多模态大模型精准解析物种关系图谱

摘要

TARA 如何赋予模型层级认知能力

面向层级识别的系统性实验设计

开启开放世界视觉识别新路径

TARA 背后的研究者

相关文章推荐