产业资讯
大模型
腾讯混元
腾讯混元等开源
PlanningBench大模型规划能力评测榜单:腾讯混元等开源
摘要
PlanningBench是腾讯混元等机构推出的开源框架,专注大语言模型规划能力评测与训练。它覆
PlanningBench:大模型规划能力评测框架详解
读完这个框架的第一反应:它精准击中了当前大模型评测的致命短板——很多模型回答“条理清晰”,但一落地执行就漏洞百出。PlanningBench 由腾讯混元团队与中国人民大学高瓴人工智能学院联合推出,是一个专注解析大语言模型规划能力评测与训练的开源框架。该框架基于真实场景,构建了一套覆盖六大类、三十余种规划任务的可验证数据生成体系。其核心是通过约束驱动的闭环合成流程,把模型的规划输出从“语法正确”推向“全局可执行”。
PlanningBench核心功能与特性
- 覆盖现实场景:涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类,共计三十余种具体规划任务。
- 三层约束体系:将规划难度拆解为基础约束、中等约束和困难约束,实现任务难度的精细化控制。
- 自动验证机制:每条实例配套可执行的checklist,支持Avg-pass和All-pass双指标评测。
- 闭环数据生成:通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程,自动增强数据难度。
- 训练信号输出:可验证样本可直接用于强化学习训练,为模型提供稳定的规划能力优化信号。
PlanningBench技术架构与核心原理
- 真实场景抽象与约束体系构建:由具备规划经验的专业标注人员与算法研究人员协作,从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构,最终形成六大规划任务家族与三十余种具体任务类型。约束被划分为基础约束(时间窗口、资源边界)、中等约束(多目标优化、依赖关系)和困难约束(异常恢复、目标冲突)三个层级,使数据生成能够在结构化设计空间中灵活组合任务与约束。
- 约束驱动的闭环合成流程:框架核心是一个Generator-Responder-Critic三角色协作的闭环系统。Generator根据采样的任务与约束组合生成自包含的规划问题及对应验证清单;Responder模型尝试生成方案;Critic依据checklist逐项检查答案是否满足全部要求。若通过则提高难度,否则保留为挑战性样本。这使得PlanningBench成为一个能主动寻找模型能力边界的动态数据生成系统。
- 三层难度约束体系:将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素,通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性,中等约束引入公平性与负载均衡要求,困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力,让难度提升真正作用于规划推理深度。
PlanningBench使用指南:安装与操作步骤
- 获取资源:访问GitHub仓库克隆代码,或从HuggingFace下载数据集。
- 运行评测:加载PlanningBench评测集,调用模型生成规划方案,使用内置checklist自动计算Avg-pass和All-pass指标。
- 生成定制数据:配置任务类型与约束层级,运行闭环生成流程,按需产出特定难度和领域的规划训练数据。
- 训练模型:用生成的可验证样本作为奖励信号,对目标模型进行强化学习训练,迁移到下游规划任务。
PlanningBench五大核心优势对比
- 可验证性:通过自动checklist精确判定方案是否全局可执行。
- 难度可控:基于约束层级而非简单增加提示词长度来调控任务难度,更贴近真实规划复杂度。
- 诊断精准:Avg-pass与All-pass双指标能识别“局部正确但整体不可执行”的模型输出。
- 训练迁移:仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
- 场景真实:任务来源于通勤、排产、医疗调度等实际场景,避免模型在固定题库上过拟合。
PlanningBench官方项目资源地址
- GitHub仓库地址:https://github.com/Tencent-Hunyuan/PlanningBench
- HuggingFace模型库地址:https://huggingface.co/datasets/tencent/PlanningBench
- arXiv技术论文链接:https://arxiv.org/pdf/2605.20873
PlanningBench与AgentBench对比分析
详细对比表现如下:
| 对比维度 | PlanningBench | AgentBench |
|---|---|---|
| 核心定位 | 专注于大模型规划推理能力的评测与训练框架,强调从“看似合理”到“实际可执行”的跨越。 | 综合性大模型智能体能力评测框架,覆盖推理、决策、工具使用、环境交互等多维度。 |
| 任务覆盖 | 覆盖6大类30余种真实规划任务,包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。 | 覆盖8个交互环境,包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。 |
| 验证机制 | 每条实例配套结构化checklist,自动逐项验证约束满足情况,精确判定方案是否全局可执行。 | 基于环境执行反馈与结果匹配判定任务成功,不同环境有独立的验证逻辑。 |
| 评测指标 | 采用Avg-pass(局部约束满足率)与All-pass(全局可执行率)双指标,识别“局部正确但整体不可执行”的输出。 | 主要采用Success Rate(成功率),按8个环境分别统计,衡量任务最终完成度。 |
| 难度控制 | 通过三层约束体系(基础/中等/困难)与闭环难度增强机制,主动调控约束耦合度和资源冲突强度。 | 通过多轮交互(5-50轮)和环境复杂度递进提升难度,更侧重交互深度而非约束密度。 |
| 环境交互 | 面向静态规划问题求解,模型在明确输入下生成完整方案,无需与外部环境实时交互。 | 要求模型与模拟环境(如bash终端、浏览器、数据库)进行实时多轮交互,动态获取反馈。 |
| 训练支持 | 原生支持训练,可验证数据可直接作为GRPO等强化学习的奖励信号,且能迁移到外部基准。 | 主要用于评测,框架本身不直接提供可扩展的训练数据生成能力。 |
PlanningBench典型应用场景与落地实践
- 模型能力诊断:精准识别大模型在约束推理、资源分配、状态跟踪等规划核心能力上的短板。
- 智能体训练:为AI Agent提供可验证的规划训练数据,提升其在日程安排、物流调度等任务中的可靠性。
- 学术研究:作为规划能力研究的基准工具,支持可复现、可扩展的模型对比实验。
- 企业排程优化:基于框架生成特定业务场景(如护士排班、生产排产)的评测数据,评估模型落地可行性。
- 教育分组与资源分配:用学生分组、物资分发等任务类型,验证模型在多约束条件下的公平性与最优性。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。