辅助资源
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
摘要
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语” 当地时间10月30日,OpenAI放出了一个新
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
当地时间10月30日,OpenAI放出了一个新动作:开源一个名为SimpleQA的全新基准测试工具。这个工具的核心使命很明确——给语言模型“考考基本功”,精准衡量它们回答简短事实性问题的能力。这相当于为AI的“记忆力”和“严谨性”定下了一把标尺。

AI领域有一个众所周知的“老大难”问题:如何让模型给出的答案**符合事实**。眼下的大模型,时不时就会**产出些错误信息或没来由的答案**,这种现象业界称之为“幻觉”。显然,那些答案更准确、幻觉更少的模型,才更可靠,也才敢被用到更广泛的场景里去。
那么,OpenAI究竟想打造一个怎样的测试集呢?他们为SimpleQA设定了几个明确的标尺:
- 高正确性:每个问题的参考答案,都经过了至少两名AI训练师的独立验证。双重保险,为的就是确保评分的公正与客观。
- 多样性:SimpleQA覆盖的话题面相当广,从硬核的科学技术,到大众的电视节目、电子游戏,可以说是包罗万象。
- 前沿挑战性:比起2017年的TriviaQA或是2019年的NQ这些“老前辈”,SimpleQA的难度提升了一个档次,专门用来“为难”像GPT-4o这样的顶尖模型。事实也证明,即便是GPT-4o,在这个测试上的得分也未能突破40%。
- 高效用户体验:SimpleQA的问答设计追求简洁明了,这让整个评估过程非常快捷,也能方便地通过OpenAI API等接口进行快速评分。另外,包含了4326道题的题库规模,也保证了评估结果的稳定性,不至于波动太大。
总结来说,SimpleQA的定位很清晰:一个**简单直接却极具挑战性**的基准,专门用来评估最前沿模型在事实准确性上的硬实力。当然,它也有自己的局限性,主要在于测试范围——虽然测得很准,但它目前只针对那些简短、事实导向且有明确可验证答案的查询场景。
一个更深层、也更有趣的问题也随之浮现:一个模型在简短回答中展现出的“事实性”,真的能代表它在**长篇大论、涉及多重事实的复杂内容**中的表现吗?这仍然是一个**有待探索**的研究方向。OpenAI开源SimpleQA的用意,正是希望它能成为一块坚实的垫脚石,推动整个AI社区朝着打造更可信、更可靠的模型这一目标,再往前迈进一步。
附有关地址:
- 开源链接:https://github.com/openai/simple-evals/
- 论文:https://cdn.openai.com/papers/simpleqa.pdf
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。