其他资讯

3.7 Flash Agent效率测评：新时代智能体排行榜

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Step3 7Flash 今日正式发布，作为一款开源模型，直指Agent时代三大核心痛点：运行效率、任务

Step3.7Flash 今日正式发布，作为一款开源模型，直指Agent时代三大核心痛点：运行效率、任务可靠性与多模态协同执行。采用Apache 2.0协议并完全开放权重，一经推出便引发业界广泛关注。

基准测试表现领先，真实场景验证实战能力

在多项权威评测中，Step3.7Flash 的成绩单令人瞩目：

ClawEval-1.1 斩获榜首（67.1分）
SimpleVQA Search 夺冠（79.2分）
SWE-PRO 排名第二（56.3分）
V* Python 达到95.3分

这些分数表明，在智能体任务编排、程序生成、跨模态视觉检索等高难度场景中，其实战能力已经过充分验证。

核心指标：性能、成本与实用性的全新平衡

该模型专为Agentic工作流、代码理解与生成、语义搜索及多模态交互场景优化。推理效率与资源利用率实现关键跃升，核心数据如下：

吞吐能力：最高可达400 TPS
模型架构：198B 稀疏MoE，每步激活参数约11B
上下文窗口：支持最长256K token
推理模式：提供三级可调推理策略

换言之，在保持强大功能的前提下，大幅降低了硬件开销与部署门槛，显著提升了实际落地中的性价比。

多模态感知与稳健执行，实现“所见即所为”

Step3.7Flash最具突破性的能力在于构建了端到端的“感知-决策-执行”闭环。它不仅能精准解析网页界面、图表、PDF文档及各类图像内容，还能据此自动生成可执行代码或调用外部工具完成具体操作。升级后的Web+视觉搜索模块拓展了信息获取边界，并支持多轮深度追问。工具调用稳定性显著增强——在τ²-bench全难度测试中，成功率稳定保持在98%以上，目标偏移和工具误触发等常见故障被大幅抑制。

开放生态与本地适配，灵活部署无压力

该模型已深度适配Claude Code、KiloCode、Hermes Agent、OpenClaw等主流智能体框架，并兼容MCP等通用协议标准。硬件层面，原生支持Mac Studio M4 Max、DGX Spark、AMD AI Max+395等多种方案，能够轻松满足私有化部署与数据合规性需求。

AIbase 评论：Step3.7Flash的发布，标志着开源Agent模型从“基础可用”迈入“稳定好用、高效可靠”的新阶段。当智能体成为AI应用的核心范式，这种在速度、成本与执行鲁棒性之间取得精妙平衡的模型，极有可能成为构建下一代自主工作流的关键基石。

来源：互联网

上一篇 李宰旭申艺恩新剧海报曝光神还原原作漫画 下一篇 ChatGPT共享页沦为恶意入口，谷歌搜索精准投毒

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

3.7 Flash Agent效率测评：新时代智能体排行榜

摘要

基准测试表现领先，真实场景验证实战能力

核心指标：性能、成本与实用性的全新平衡

多模态感知与稳健执行，实现“所见即所为”

开放生态与本地适配，灵活部署无压力

相关文章推荐