其他资讯综合资讯

北京大学GENIUS测试深度测评：AI泛化能力权威榜单揭晓

2026-05-13

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年2月，一项由北京大学、香港中文大学、StepFun、香港理工大学及微软亚洲研究院联合发

2026年2月，一项由北京大学、香港中文大学、StepFun、香港理工大学及微软亚洲研究院联合发布的突破性研究（论文编号arXiv:2602.11144v1），精准定位了当前人工智能领域一个核心但常被忽视的瓶颈。

北京大学团队首创GENIUS测试：揭秘AI

设想一个场景：一个孩子能背诵千首古诗，却无法根据落日景象即兴创作一句新诗。这正是当前许多先进AI模型的真实困境——它们擅长记忆与复现，却在面对需要即时推理与适应的全新挑战时暴露短板。

具体而言，模型可以凭借海量数据生成标准的猫图像。但当指令变为“生成一幅模仿梵高风格、穿着红色毛衣、头戴蓝色帽子的猫肖像”时，输出结果往往偏离核心约束。这揭示了“结晶智力”与“流体智力”的本质区别。

“结晶智力”依赖于模型参数中固化的知识模式。而“流体智力”则要求模型在陌生情境中快速解析关系、进行推理并生成解决方案。该研究明确指出，现有AI评估体系过度聚焦于前者，严重缺乏对后者的系统化评测。

GENIUS：一把衡量AI“急智”的新标尺

为填补这一关键空白，研究团队开发了名为“GENIUS”的全新评测框架。其名称兼具“天才”之意与“生成式流体智力评估套件”的缩写内涵。该框架的核心目标是设计前所未有的新颖任务，专项评估AI的泛化与推理能力。

GENIUS的设计理念源于经典的卡特尔-霍恩-卡罗尔认知理论。研究团队将人类智力中“晶体能力”与“流体能力”的划分，创新性地应用于AI评估领域，构建了一套全新的多维度评测体系。

整个GENIUS测试包含510道精心设计的题目，其挑战性呈现递进式结构：

第一层：隐式模式归纳。 要求模型从有限示例中抽象出未明言的规则。例如，向模型展示一组图像并暗示某位艺术家的风格偏好，随后要求其根据这种隐式审美生成新作品。

第二层：即时约束执行。 模拟在任务执行中动态引入新规则。研究人员会临时赋予特定符号全新含义（例如，“从现在起，蓝色方块代表旋转操作”），并检验模型能否在后续生成中准确应用该规则。

第三层：上下文知识适应。 这是最高阶的挑战，要求模型在完全违背常识的虚构情境中运作。例如，设定一个重力方向由颜色决定的世界——红色物体上浮，蓝色物体下沉。模型必须依据这套反直觉物理法则生成图像。

令人警醒的测试结果与“能力错觉”

研究团队对12个代表性AI模型进行了测试，涵盖主流商业模型及顶尖开源模型。结果具有冲击力：即便最先进的商业模型，在GENIUS测试中的表现也仅接近及格线，多数开源模型则表现欠佳。

一个关键发现是模型普遍存在“能力错觉”。它们生成的图像往往在纹理、色彩等表面特征上高度逼真，但却系统性忽略了指令中定义的核心规则与约束。这好比一份笔迹优美却内容离题的答卷，华丽的输出掩盖了深层的逻辑执行缺陷。

问题根源：注意力机制的“分心”

为追溯问题根源，团队深入分析了模型内部工作机制。他们发现，当处理包含复杂、新颖约束的多模态指令时，模型的注意力机制容易发生“分心”。本应聚焦于理解并执行新规则的关键信息流，其注意力权重被分散到输入的次要部分，导致无法准确提取和应用临时定义的约束条件。

基于此洞见，团队提出一种创新解决方案。其思路类似于为模型配备一个“注意力引导模块”。该方法分为三步：首先精准提取指令中的关键约束信息；随后计算模型内部各信息单元与这些约束的相关性评分；最后动态调整注意力分布，强化对关键信息的聚焦。该方法无需重新训练模型主体，实现了高效的即插即用式优化。

实验表明，经过注意力调整的模型在GENIUS各项测试中表现均有提升。虽然当前提升幅度有限，但这一路径为后续优化指明了明确方向。

超越测试：对AI发展的深远启示

此项研究的意义超越了提出一套新评测标准。它首次系统性地揭示了当前AI在泛化与推理能力上的结构性短板，为领域发展提供了关键诊断。过去，业界常被模型在已知任务上的流畅表现所误导。GENIUS测试则客观证明，AI距离实现真正的通用情境适应与创造性问题解决，仍有长路要走。

更重要的是，它提示了AI发展的一个潜在范式转向：在持续扩大训练数据规模的同时，必须同等重视提升模型的内在推理机制与情境适应能力。这类似于教育中，培养批判性思维比单纯的知识灌输更为根本。

目前，研究团队已开源GENIUS测试框架。这为全球研究者提供了一把统一的“能力标尺”，有助于推动整个社区朝着构建更稳健、更具泛化能力的模型方向迈进。

从更宏观的视角看，这项研究触及了AI演进的核心命题：如何从模式模仿迈向真正的认知创新。在AI技术深度融入各行业的当下，这个问题的答案将决定AI最终是成为一个高级模式匹配工具，还是一个能够应对复杂现实挑战的智能伙伴。GENIUS框架的推出，标志着一个更严谨、更深入的AI评估时代的开始——它提醒我们，真正的智能不仅在于存储了多少知识，更在于能否灵活运用知识解决未知问题。

Q&A

Q1：GENIUS测试框架与现有AI测试有什么根本不同？

现有测试主要评估模型对训练数据内已见模式的记忆与复现能力，可类比“闭卷知识测验”。GENIUS则专门设计训练数据中完全不存在的新规则与新场景，评估模型的即时学习、解析与应用能力，更像一场“开放式现场问题解决测验”。

Q2：为什么说当前AI模型存在“能力错觉”？

研究发现，模型常能生成视觉质量高、符合普遍审美的图像，但这与其是否精确遵循了指令中复杂、新颖的特定约束无关。这种表面输出的高质量，容易让观察者高估模型深层的逻辑理解与规则执行能力，从而产生“模型已掌握智能”的错觉。

Q3：研究团队提出的注意力调整方法具体如何工作？

该方法通过三阶段流程实现：首先，像解析蓝图一样，从用户指令中提取关键任务约束；其次，分析模型内部处理过程中，不同信息元素与这些关键约束的相关性；最后，基于相关性评分，动态增强模型对核心约束信息的注意力权重。整个过程作为外部引导机制，不修改模型原有参数。

来源：互联网

上一篇 北大团队首创AI视频理解系统：像导演一样精准解析每一帧画面 下一篇 2026精选推荐系统测评：AI如何精准挖掘你的隐藏喜好

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

北京大学GENIUS测试深度测评：AI泛化能力权威榜单揭晓

摘要

GENIUS：一把衡量AI“急智”的新标尺

令人警醒的测试结果与“能力错觉”

问题根源：注意力机制的“分心”

超越测试：对AI发展的深远启示

Q&A

相关文章推荐