辅助资源

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语” 当地时间10月30日，OpenAI放出了一个新

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

当地时间10月30日，OpenAI放出了一个新动作：开源一个名为SimpleQA的全新基准测试工具。这个工具的核心使命很明确——给语言模型“考考基本功”，精准衡量它们回答简短事实性问题的能力。这相当于为AI的“记忆力”和“严谨性”定下了一把标尺。

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

AI领域有一个众所周知的“老大难”问题：如何让模型给出的答案**符合事实**。眼下的大模型，时不时就会**产出些错误信息或没来由的答案**，这种现象业界称之为“幻觉”。显然，那些答案更准确、幻觉更少的模型，才更可靠，也才敢被用到更广泛的场景里去。

那么，OpenAI究竟想打造一个怎样的测试集呢？他们为SimpleQA设定了几个明确的标尺：

高正确性：每个问题的参考答案，都经过了至少两名AI训练师的独立验证。双重保险，为的就是确保评分的公正与客观。
多样性：SimpleQA覆盖的话题面相当广，从硬核的科学技术，到大众的电视节目、电子游戏，可以说是包罗万象。
前沿挑战性：比起2017年的TriviaQA或是2019年的NQ这些“老前辈”，SimpleQA的难度提升了一个档次，专门用来“为难”像GPT-4o这样的顶尖模型。事实也证明，即便是GPT-4o，在这个测试上的得分也未能突破40%。
高效用户体验：SimpleQA的问答设计追求简洁明了，这让整个评估过程非常快捷，也能方便地通过OpenAI API等接口进行快速评分。另外，包含了4326道题的题库规模，也保证了评估结果的稳定性，不至于波动太大。

总结来说，SimpleQA的定位很清晰：一个**简单直接却极具挑战性**的基准，专门用来评估最前沿模型在事实准确性上的硬实力。当然，它也有自己的局限性，主要在于测试范围——虽然测得很准，但它目前只针对那些简短、事实导向且有明确可验证答案的查询场景。

一个更深层、也更有趣的问题也随之浮现：一个模型在简短回答中展现出的“事实性”，真的能代表它在**长篇大论、涉及多重事实的复杂内容**中的表现吗？这仍然是一个**有待探索**的研究方向。OpenAI开源SimpleQA的用意，正是希望它能成为一块坚实的垫脚石，推动整个AI社区朝着打造更可信、更可靠的模型这一目标，再往前迈进一步。

附有关地址：

开源链接：https://github.com/openai/simple-evals/
论文：https://cdn.openai.com/papers/simpleqa.pdf

来源：互联网

上一篇 Lernmi- Lernmi通过人工智能和导师反馈提升软技能和销售业绩 下一篇 Educationist- 基于人工智能的职业指导

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

摘要

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

相关文章推荐