PlanningBench开源规划评测框架:腾讯人大高瓴联合发布
摘要
腾讯与人大高瓴联合开源规划评测框架PlanningBench,该平台专注于大模型规划能力的评估与
大模型规划能力的评估与训练,一直是AI落地中的核心瓶颈。腾讯混元团队联合人大高瓴人工智能学院等机构,近期开源了PlanningBench框架——一个专为评估和提升大模型规划能力设计的数据生成平台,核心亮点在于“可扩展”与“可验证”两大特性。

该框架的构建逻辑非常务实:不搞封闭式研发,而是紧贴真实世界的规划需求进行设计。团队系统梳理了任务类型、约束条件、复杂度等多个关键维度,最终搭建起一个覆盖30余类规划任务的数据生成与验证体系。这意味着,它不仅能科学衡量模型是否具备真正的规划推理能力,更关键的是,能为模型持续训练规划能力提供一套稳定、鲁棒、且跨任务场景可迁移的奖励反馈机制。
在任务覆盖上,PlanningBench瞄准了六大典型应用场景:日程安排、资源调配、人员排班、路径规划、生产调度,以及应急响应。每个场景都有独特的复杂度和挑战。将如此多样的任务整合到同一框架中,直接避免了模型陷入单一领域的“应试式学习”——它必须在真实世界错综复杂的问题中展现泛化与适应能力,而非仅仅记住特定模式。
尤其值得关注的是PlanningBench的难度调控机制。它并非简单通过拉长输入提示来实现,而是通过对任务结构分解、约束层级嵌套、资源稀缺程度等关键因素进行精细化建模,精准对真实世界的瓶颈环节进行“靶向生成”。每条生成样本都附带一个结构化的checklist,用于严格校验模型输出是否满足原始输入要求、是否遵守资源限制、以及是否达成了最优目标。真假规划能力,据此一目了然。
从评估视角看,PlanningBench采用“兼顾局部合理性与全局可行性”的双重评估策略,能够精准识别那些“局部看似合理、整体却无法落地”的伪计划。这一特性在分析大模型面对强约束、多目标场景时的真实规划水平时,几乎是不可或缺的。
实证效果方面:借助PlanningBench提供的可验证数据展开训练,模型在从未接触过的新规划基准测试以及通用推理任务中,均取得了显著的性能提升。这充分证明其提供的学习信号具备高度的通用性与泛化潜力。
PlanningBench构建了一个以真实场景为牵引的完整闭环体系——涵盖数据生成、能力评测、模型训练与效果迁移。对于下一代人工智能在规划能力方向的研究与实践而言,这无疑开辟了一条全新的路径。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。