菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 2025年腾讯与人大联合开源规划工具对比测评精选榜单
热点资讯 开源

2025年腾讯与人大联合开源规划工具对比测评精选榜单

2026-06-06
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

腾讯与人大联合推出开源框架PlanningBench,可评测和训练大语言模型的规划能力。该框架覆

腾讯混元团队与人大高瓴人工智能学院联合发布了PlanningBench开源框架,专用于评测并强化大语言模型在规划任务上的表现。该框架在可扩展性与可验证性方面设计严谨,其数据生成遵循结构化规则,而非随机构造。

image.png

PlanningBench基于真实规划场景,系统抽象任务、约束与难度要素,构建了覆盖30余种规划任务类型的数据生成与验证系统。它不仅评估模型是否具备规划能力,还能为训练过程提供稳定且可迁移的奖励信号。区别于仅能测试的评测框架,这套体系兼具教学功能,能够指导模型改进。

PlanningBench规划任务类型涵盖六大领域:日程排布、资源分配、人力排班、路径调度、生产运营与应急服务。广泛覆盖避免模型在单一场景中“应试”的局限。实际应用场景多样,若模型仅擅长日程安排而无法应对产线调度,其规划能力便缺乏实用性。

难度控制机制颇具特色:并非通过拉长提示文本,而是通过分解任务结构、约束层级与资源紧张度等真实因素来调节难度。每条数据实例附带checklist,用于验证模型输出是否满足输入条件、资源约束及目标最优性。由此可清晰判断模型是偶然猜对还是真正理解约束。

另一关键特性:PlanningBench同时评估局部合规性与全局成功性。某些计划可能步骤看似正确,但整体不可执行——这种“表面有效”的假规划通常难以被常规评测识别。PlanningBench能够精准检出此类问题,对诊断大模型在复杂约束下的实际规划能力具有重要价值。

训练效果显示,经PlanningBench可验证数据训练的模型,在未见过的规划基准及通用任务上均实现显著性能提升。这表明学习信号具备可迁移的通用性,而非单纯记忆。整体上,PlanningBench构建了真实场景驱动的闭环:数据生成→能力验证→训练迁移。这为未来人工智能规划研究提供了切实有效的工具与方向。

核心要点:

? PlanningBench由腾讯与人大高瓴联合打造,是专为大语言模型规划能力评测与训练设计的开源框架。

? 框架覆盖30余种规划任务类型,涵盖日程排布、资源分配等六大实际应用场景。

✅ 利用可验证数据训练后,模型在各类任务上的表现大幅提升,展现出广泛的适用性与迁移能力。


来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多