菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 规划评测框架开源年度精选:腾讯与人大高瓴联合权威榜单
产业资讯 开源 规划

规划评测框架开源年度精选:腾讯与人大高瓴联合权威榜单

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

腾讯混元团队与人大高瓴人工智能学院联合开源了一款新框架——PlanningBench,专门用于评

腾讯混元团队与人大高瓴人工智能学院联合开源了一款新框架——PlanningBench,专门用于评测和训练大语言模型的规划能力。该框架具备可扩展与可验证特性,数据生成与校验环节均可同步完成。

image.png

PlanningBench从真实规划场景出发,系统性地抽象出任务、约束与难度等要素,搭建起覆盖30余种规划任务类型的数据生成与验证体系。这套体系不仅能检验模型是否具备规划能力,还能为模型训练提供稳定、可迁移的奖励信号——这才是核心价值所在。

在任务设计上,PlanningBench涵盖六大实际应用领域:日程排布、资源分配、人力排班、路径调度、生产运营与应急服务。如此广泛的覆盖范围,旨在避免模型仅在单一领域“刷题”表现出色,换到其他场景便露馅。让模型真正应对多样化的现实需求,才是初衷。

值得一提的是它的难度控制机制。通过拆解任务结构、约束层级、资源紧张度等因素来调节难度,而非简单拉长提示词或增加复杂度。每条数据实例附带一份checklist,用于评估模型输出是否满足输入条件、是否受资源限制、目标是否达到最优。这使得评估能落到实处,细节到位。

PlanningBench同时关注“局部合规”与“全局成功”,能识别出那种“看似大部分正确,实则整体不可执行”的计划。这一能力对诊断大语言模型在复杂约束下的真实规划水平极具价值。

实际效果显示,用PlanningBench的可验证数据训练模型后,模型在面对未见过的规划基准与通用任务时,表现均有显著提升。这说明学习信号具备通用性。整体而言,PlanningBench走通了一个真实闭环:从场景出发生成数据,数据驱动训练,训练成果可迁移至更多任务。这对未来人工智能规划研究而言,提供了一条新路径和一套实用的工具箱。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多