3.7 Flash Agent效率测评:新时代智能体排行榜
摘要
Step3 7Flash 今日正式发布,作为一款开源模型,直指Agent时代三大核心痛点:运行效率、任务
Step3.7Flash 今日正式发布,作为一款开源模型,直指Agent时代三大核心痛点:运行效率、任务可靠性与多模态协同执行。采用Apache 2.0协议并完全开放权重,一经推出便引发业界广泛关注。

基准测试表现领先,真实场景验证实战能力
在多项权威评测中,Step3.7Flash 的成绩单令人瞩目:
- ClawEval-1.1 斩获榜首(67.1分)
- SimpleVQA Search 夺冠(79.2分)
- SWE-PRO 排名第二(56.3分)
- V* Python 达到95.3分
这些分数表明,在智能体任务编排、程序生成、跨模态视觉检索等高难度场景中,其实战能力已经过充分验证。
核心指标:性能、成本与实用性的全新平衡
该模型专为Agentic工作流、代码理解与生成、语义搜索及多模态交互场景优化。推理效率与资源利用率实现关键跃升,核心数据如下:
- 吞吐能力:最高可达400 TPS
- 模型架构:198B 稀疏MoE,每步激活参数约11B
- 上下文窗口:支持最长256K token
- 推理模式:提供三级可调推理策略
换言之,在保持强大功能的前提下,大幅降低了硬件开销与部署门槛,显著提升了实际落地中的性价比。
多模态感知与稳健执行,实现“所见即所为”
Step3.7Flash最具突破性的能力在于构建了端到端的“感知-决策-执行”闭环。它不仅能精准解析网页界面、图表、PDF文档及各类图像内容,还能据此自动生成可执行代码或调用外部工具完成具体操作。升级后的Web+视觉搜索模块拓展了信息获取边界,并支持多轮深度追问。工具调用稳定性显著增强——在τ²-bench全难度测试中,成功率稳定保持在98%以上,目标偏移和工具误触发等常见故障被大幅抑制。
开放生态与本地适配,灵活部署无压力
该模型已深度适配Claude Code、KiloCode、Hermes Agent、OpenClaw等主流智能体框架,并兼容MCP等通用协议标准。硬件层面,原生支持Mac Studio M4 Max、DGX Spark、AMD AI Max+395等多种方案,能够轻松满足私有化部署与数据合规性需求。
AIbase 评论:Step3.7Flash的发布,标志着开源Agent模型从“基础可用”迈入“稳定好用、高效可靠”的新阶段。当智能体成为AI应用的核心范式,这种在速度、成本与执行鲁棒性之间取得精妙平衡的模型,极有可能成为构建下一代自主工作流的关键基石。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。