其他资讯开源腾讯人大高瓴联合发布

PlanningBench开源规划评测框架：腾讯人大高瓴联合发布

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯与人大高瓴联合开源规划评测框架PlanningBench，该平台专注于大模型规划能力的评估与

大模型规划能力的评估与训练，一直是AI落地中的核心瓶颈。腾讯混元团队联合人大高瓴人工智能学院等机构，近期开源了PlanningBench框架——一个专为评估和提升大模型规划能力设计的数据生成平台，核心亮点在于“可扩展”与“可验证”两大特性。

该框架的构建逻辑非常务实：不搞封闭式研发，而是紧贴真实世界的规划需求进行设计。团队系统梳理了任务类型、约束条件、复杂度等多个关键维度，最终搭建起一个覆盖30余类规划任务的数据生成与验证体系。这意味着，它不仅能科学衡量模型是否具备真正的规划推理能力，更关键的是，能为模型持续训练规划能力提供一套稳定、鲁棒、且跨任务场景可迁移的奖励反馈机制。

在任务覆盖上，PlanningBench瞄准了六大典型应用场景：日程安排、资源调配、人员排班、路径规划、生产调度，以及应急响应。每个场景都有独特的复杂度和挑战。将如此多样的任务整合到同一框架中，直接避免了模型陷入单一领域的“应试式学习”——它必须在真实世界错综复杂的问题中展现泛化与适应能力，而非仅仅记住特定模式。

尤其值得关注的是PlanningBench的难度调控机制。它并非简单通过拉长输入提示来实现，而是通过对任务结构分解、约束层级嵌套、资源稀缺程度等关键因素进行精细化建模，精准对真实世界的瓶颈环节进行“靶向生成”。每条生成样本都附带一个结构化的checklist，用于严格校验模型输出是否满足原始输入要求、是否遵守资源限制、以及是否达成了最优目标。真假规划能力，据此一目了然。

从评估视角看，PlanningBench采用“兼顾局部合理性与全局可行性”的双重评估策略，能够精准识别那些“局部看似合理、整体却无法落地”的伪计划。这一特性在分析大模型面对强约束、多目标场景时的真实规划水平时，几乎是不可或缺的。

实证效果方面：借助PlanningBench提供的可验证数据展开训练，模型在从未接触过的新规划基准测试以及通用推理任务中，均取得了显著的性能提升。这充分证明其提供的学习信号具备高度的通用性与泛化潜力。

PlanningBench构建了一个以真实场景为牵引的完整闭环体系——涵盖数据生成、能力评测、模型训练与效果迁移。对于下一代人工智能在规划能力方向的研究与实践而言，这无疑开辟了一条全新的路径。

来源：互联网

上一篇 腾讯云WAND音视频AI评测：六大自研模型+60项AI能力 下一篇 腾讯智能体社区虾友会从LV1新手到大佬的成长之路

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

PlanningBench开源规划评测框架：腾讯人大高瓴联合发布

摘要

相关文章推荐