其他资讯

新加坡国立大学AI评测新标准深度解析：让机器思考如研究员

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

评估人工智能的研究能力，关键在于能否科学地衡量其完整的认知过程。仅审视最终输出，

评估人工智能的研究能力，关键在于能否科学地衡量其完整的认知过程。仅审视最终输出，如同仅凭一份报告来评判研究员的水准，而忽略了其信息搜集、证据分析与逻辑推理的核心能力。当前主流的AI评测方法，恰恰陷入了这种“重结果、轻过程”的误区，无法全面反映AI的真实研究水平。

新加坡国立大学团队发布深度研究AI评测新标准：让机器像真正研究员一样思考

2026年3月，一项由新加坡国立大学MiroMind团队联合南洋理工大学学者完成的研究带来了转机。他们在预印本平台arXiv上发布了论文（编号：arXiv:2603.28407v1），提出了一套名为MiroEval的全新评测框架，旨在为AI研究员设计一场覆盖全维度的“能力大考”。

传统评测的“尺子”为何不准？

传统AI评测方法的局限性，主要体现在四个关键维度，如同使用一把失准的标尺。首要问题在于过度聚焦最终答案，完全忽视了研究过程的价值——这好比仅评价菜肴的品相，却无视厨师的烹饪技法。其次，评测场景严重缺乏多模态支持。真实研究涉及图表、PDF、数据文件等多种材料，而多数评测仍局限于纯文本交互。第三，任务设计往往脱离实际，缺乏真实用户需求的复杂性与动态变化。最后，评测标准容易固化，难以跟上知识快速迭代的节奏。

MiroEval：从“阅卷机器”到“诊断专家”

MiroEval的创新在于范式转变：从“评分”转向“诊断”。该框架基于一个包含100个研究任务的评测集构建，其中70个为文本任务，30个为多模态任务。这些任务并非凭空设计，而是通过双管道生成：一条管道采集并重构真实用户的研究需求；另一条则基于网络趋势自动生成议题。这确保了评测既涵盖基础研究能力，又紧扣前沿动态。

更重要的是，MiroEval的评估维度实现了根本性拓展，深入审视AI的“思维链”：

1. 综合报告质量评估： 系统化评估输出内容的行文逻辑、结构组织与信息呈现清晰度。

2. 智能事实核查： 对报告中的关键论断进行自动化溯源与证据验证，确保信息可靠性。

3. 研究过程评估： 这是框架的核心突破。系统通过分析AI的“思考轨迹”，评估其搜索策略的有效性、信息分析深度以及处理矛盾证据的推理能力，完整还原从问题定义到结论形成的内部流程。

测试结果：惊喜与挑战并存

研究团队对13个主流深度研究AI系统进行了测试，结果揭示了显著的性能分化。不同系统在三个评估维度上表现各异，如同各具专长的研究员。部分AI能生成结构清晰的报告，但事实准确性欠佳；另一些则展现出强大的信息搜集能力，却在深度分析上表现薄弱；更有一些系统的最终输出看似合格，但其内部研究过程却逻辑混乱、步骤缺失。

一个关键发现是：研究过程的质量，是预测最终结果质量的有效指标。 那些在搜索、分析与推理环节表现稳健的AI系统，其产出的研究报告质量也普遍更高。这一结论确立了过程评估的独立价值与预测效力。

多模态任务则暴露了普遍短板。当任务涉及整合图像、表格或PDF文档时，几乎所有系统的性能均出现显著下滑，得分普遍下降3至10分。这清晰表明，当前AI在跨模态信息理解与综合处理方面存在明显瓶颈。

在所有受测系统中，MiroThinker系列表现最为均衡，尤其是MiroThinker-H1，在综合评估中领先。其优势在于在报告质量、事实核查与研究过程三个核心维度上均无显著短板，展现了全面的研究能力。

可靠性与未来意义

为确保评测信度，团队进行了广泛的稳定性测试与人工验证。结果显示，该框架的自动评估准确率达到92%，与专家人工评估的一致性为91%，为其可靠性提供了坚实的数据支撑。

这项研究的意义超越了提出一套新标准。它从根本上为深度研究AI的发展指明了方向：优化不能只停留在输出层，必须同步推进其内部推理过程的透明化与严谨性。这类似于教育理念从“应试”向“素养”的转变。

随着AI在金融、医疗、法律等高价值领域的深入应用，用户需求已从“获取答案”升级为“理解答案的生成逻辑”。MiroEval强调的过程透明度评估，正是构建可信AI与可解释AI的关键路径。

此外，得益于其双路径任务生成机制，MiroEval框架本身具备了持续演进的能力。它既能依据真实用户反馈调整任务，也能追踪知识更新迭代评测内容，从而确保其作为度量工具的长期有效性与前沿性。

MiroEval标志着一个新阶段的开始：AI评测正从表面的“文本生成”评估，深入至机器的“认知过程”剖析。这种范式转变将推动深度研究AI向更可靠、更智能的方向发展。对于用户而言，未来我们将有望借助真正值得信赖的AI研究伙伴，它们不仅能提供结论，更能清晰地展现结论背后的每一步证据与推理，使得委托其处理复杂探索任务成为可能。

当然，MiroEval目前也存在一些限制。例如，它要求AI系统能够输出其推理过程，这对某些黑盒商业系统可能构成障碍。同时，在面对相互冲突的信息源时，系统能识别矛盾，但尚不能自动进行可信度加权判断。研究团队计划利用其可更新的任务生成机制，定期发布新版本评测集，以确保该标准能持续反映技术前沿，为准确评估AI的研究能力提供长期、动态的支撑。

Q&A

Q1：MiroEval与传统AI评测方法的核心区别是什么？

传统方法主要评估AI产出的“最终答案”，而MiroEval的核心在于系统化评估AI的“完整研究过程”。它从报告质量、事实准确性和内部研究流程（信息检索、分析、推理）三个维度进行综合诊断，而非仅对输出进行打分。

Q2：为何多模态任务对AI系统构成普遍挑战？

多模态任务要求AI同步理解并融合文本、图像、表格、PDF等异构信息，这对跨模态表征学习与信息综合能力提出了更高要求。测试数据直观显示，多数系统在此类任务上性能显著下降，揭示了当前技术在处理复杂、非结构化多媒体信息方面的局限性。

Q3：MiroEval评测结果的可靠性如何保障？

研究团队通过大规模专家人工校验、多轮稳定性测试以及不同评估模型的交叉验证来确保可靠性。数据显示，其自动评估准确率达92%，与专家评判的一致性为91%，证实了该框架具备高度的信度与实用价值。

来源：互联网

上一篇 复杂环境下大脑为何“偷懒”？Yandex研究揭示智能决策机制 下一篇 智能记忆算法解析：购物AI如何精准预测你的喜好

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

新加坡国立大学AI评测新标准深度解析：让机器思考如研究员

摘要

传统评测的“尺子”为何不准？

MiroEval：从“阅卷机器”到“诊断专家”

测试结果：惊喜与挑战并存

可靠性与未来意义

Q&A

相关文章推荐