产业资讯大模型腾讯混元腾讯混元等开源

PlanningBench大模型规划能力评测榜单：腾讯混元等开源

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

PlanningBench是腾讯混元等机构推出的开源框架，专注大语言模型规划能力评测与训练。它覆

PlanningBench：大模型规划能力评测框架详解

读完这个框架的第一反应：它精准击中了当前大模型评测的致命短板——很多模型回答“条理清晰”，但一落地执行就漏洞百出。PlanningBench 由腾讯混元团队与中国人民大学高瓴人工智能学院联合推出，是一个专注解析大语言模型规划能力评测与训练的开源框架。该框架基于真实场景，构建了一套覆盖六大类、三十余种规划任务的可验证数据生成体系。其核心是通过约束驱动的闭环合成流程，把模型的规划输出从“语法正确”推向“全局可执行”。

PlanningBench核心功能与特性

覆盖现实场景：涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类，共计三十余种具体规划任务。
三层约束体系：将规划难度拆解为基础约束、中等约束和困难约束，实现任务难度的精细化控制。
自动验证机制：每条实例配套可执行的checklist，支持Avg-pass和All-pass双指标评测。
闭环数据生成：通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程，自动增强数据难度。
训练信号输出：可验证样本可直接用于强化学习训练，为模型提供稳定的规划能力优化信号。

PlanningBench技术架构与核心原理

真实场景抽象与约束体系构建：由具备规划经验的专业标注人员与算法研究人员协作，从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构，最终形成六大规划任务家族与三十余种具体任务类型。约束被划分为基础约束（时间窗口、资源边界）、中等约束（多目标优化、依赖关系）和困难约束（异常恢复、目标冲突）三个层级，使数据生成能够在结构化设计空间中灵活组合任务与约束。
约束驱动的闭环合成流程：框架核心是一个Generator-Responder-Critic三角色协作的闭环系统。Generator根据采样的任务与约束组合生成自包含的规划问题及对应验证清单；Responder模型尝试生成方案；Critic依据checklist逐项检查答案是否满足全部要求。若通过则提高难度，否则保留为挑战性样本。这使得PlanningBench成为一个能主动寻找模型能力边界的动态数据生成系统。
三层难度约束体系：将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素，通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性，中等约束引入公平性与负载均衡要求，困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力，让难度提升真正作用于规划推理深度。

PlanningBench使用指南：安装与操作步骤

获取资源：访问GitHub仓库克隆代码，或从HuggingFace下载数据集。
运行评测：加载PlanningBench评测集，调用模型生成规划方案，使用内置checklist自动计算Avg-pass和All-pass指标。
生成定制数据：配置任务类型与约束层级，运行闭环生成流程，按需产出特定难度和领域的规划训练数据。
训练模型：用生成的可验证样本作为奖励信号，对目标模型进行强化学习训练，迁移到下游规划任务。

PlanningBench五大核心优势对比

可验证性：通过自动checklist精确判定方案是否全局可执行。
难度可控：基于约束层级而非简单增加提示词长度来调控任务难度，更贴近真实规划复杂度。
诊断精准：Avg-pass与All-pass双指标能识别“局部正确但整体不可执行”的模型输出。
训练迁移：仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
场景真实：任务来源于通勤、排产、医疗调度等实际场景，避免模型在固定题库上过拟合。

PlanningBench官方项目资源地址

GitHub仓库地址：https://github.com/Tencent-Hunyuan/PlanningBench
HuggingFace模型库地址：https://huggingface.co/datasets/tencent/PlanningBench
arXiv技术论文链接：https://arxiv.org/pdf/2605.20873

PlanningBench与AgentBench对比分析

详细对比表现如下：

对比维度	PlanningBench	AgentBench
核心定位	专注于大模型规划推理能力的评测与训练框架，强调从“看似合理”到“实际可执行”的跨越。	综合性大模型智能体能力评测框架，覆盖推理、决策、工具使用、环境交互等多维度。
任务覆盖	覆盖6大类30余种真实规划任务，包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。	覆盖8个交互环境，包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。
验证机制	每条实例配套结构化checklist，自动逐项验证约束满足情况，精确判定方案是否全局可执行。	基于环境执行反馈与结果匹配判定任务成功，不同环境有独立的验证逻辑。
评测指标	采用Avg-pass（局部约束满足率）与All-pass（全局可执行率）双指标，识别“局部正确但整体不可执行”的输出。	主要采用Success Rate（成功率），按8个环境分别统计，衡量任务最终完成度。
难度控制	通过三层约束体系（基础/中等/困难）与闭环难度增强机制，主动调控约束耦合度和资源冲突强度。	通过多轮交互（5-50轮）和环境复杂度递进提升难度，更侧重交互深度而非约束密度。
环境交互	面向静态规划问题求解，模型在明确输入下生成完整方案，无需与外部环境实时交互。	要求模型与模拟环境（如bash终端、浏览器、数据库）进行实时多轮交互，动态获取反馈。
训练支持	原生支持训练，可验证数据可直接作为GRPO等强化学习的奖励信号，且能迁移到外部基准。	主要用于评测，框架本身不直接提供可扩展的训练数据生成能力。

PlanningBench典型应用场景与落地实践

模型能力诊断：精准识别大模型在约束推理、资源分配、状态跟踪等规划核心能力上的短板。
智能体训练：为AI Agent提供可验证的规划训练数据，提升其在日程安排、物流调度等任务中的可靠性。
学术研究：作为规划能力研究的基准工具，支持可复现、可扩展的模型对比实验。
企业排程优化：基于框架生成特定业务场景（如护士排班、生产排产）的评测数据，评估模型落地可行性。
教育分组与资源分配：用学生分组、物资分发等任务类型，验证模型在多约束条件下的公平性与最优性。

来源：互联网

上一篇 美国民调：70%民众反对AI，希望美国输掉人工智能战争 下一篇 机器人量产与供应链：从空翻到微操的进化之路

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。