产业资讯
Step 3.7 Flash开源模型深度测评:阶跃星辰新标杆
摘要
Step 3 7 Flash是什么 看到阶跃星辰推出的新一代开源 Flash 模型,有个点特别值得拿出来说说
Step 3.7 Flash是什么
看到阶跃星辰推出的新一代开源 Flash 模型,有个点特别值得拿出来说说——它专门给 Agent 生产化阶段做了深度优化。Step 3.7 Flash 这个型号,听名字就知道定位清晰:不是为了炫参数,而是要解决 Agent 落地时的"快、省、稳"三角难题。采用稀疏 MoE 架构,最高生成速度能到 400 Tokens/s,这个速度在开源模型里相当能打。
它在 Agent、Coding、Search 和多模态工作流这几个场景上做了系统性的优化。说白了,就是让开发者用它来构建生产级的 Agent 时,不用在速度和成本之间艰难取舍,也不用担心复杂任务执行到一半突然掉链子。
Step 3.7 Flash的主要功能
- 原生多模态理解与执行:UI、图表、文档、应用界面这些复杂视觉信息,它都能直接"看懂"并转化为可执行的任务。还能自主裁剪、放大、重读图像,相当于视觉模块自带了一个"智能放大镜"。
- 联网与视觉搜索增强:不光能联网查文本,还能搜图像。在信息不明确的环境中,它会主动去抓取多源证据并交叉比对,这在实际场景里非常实用。
- 高可靠工具调用与编排:这个能力对 Agent 开发者来说太关键了——在长程多轮工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,保持任务轨迹一致,不容易出岔子。
- Agent 生态兼容优化:Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw 这些主流框架以及 MCP/Skills 协议,它都做了适配。拿来就能用,不用花太多时间配置。
- 本地与云端双部署:既支持云端 API 调用,也给本地部署做了充分准备,提供 GGUF 多精度端侧版本。大模型的小弟也能跑得动。
Step 3.7 Flash的技术原理
- 稀疏 MoE 架构:总参数 196B 加上 1.8B 的 ViT ,但激活参数只有 11B 。这意味着什么?用更少的计算量,跑出更高的性能。模型能力和推理成本之间找到了一个很精妙的平衡点。
- 视觉感知-搜索-推理融合:视觉感知、搜索和推理这三个环节不再割裂。面对复杂视觉问题时,模型能自主发起搜索进行交叉验证——这才是人类做这类事情的真实方式。
- 长程任务轨迹保持:多轮 Agent 工作流最怕的就是任务轨迹跑偏。它对这个问题做了针对性优化,降低了执行失败率。
- 多精度端侧优化:GGUF 格式加上多精度量化版本,适配不同硬件资源,从云服务器到个人工作站都能跑起来。
如何使用Step 3.7 Flash
- 云端接入
- 国内开放平台 API:访问 https://platform.stepfun.com 注册获取 API Key ,标准接口调用,上手速度快。
- 海外开放平台 API:https://platform.stepfun.ai 用于海外节点接入,适合国际业务场景。
- Studio 在线体验:https://studio.stepfun.com/ 直接网页端体验对话与多模态能力,不用任何配置。
- 开源部署
- GitHub 仓库:https://github.com/stepfun-ai/Step-3.7-Flash 完整代码与权重,按文档部署即可。
- Huggingface 模型:https://huggingface.co/stepfun-ai/Step-3.7-Flash 模型文件,Transformers 等主流框架直接加载推理。
- Modelscope 模型:https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash 适合国内开发者快速拉取。
- 端侧 GGUF 版本:https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF 多精度量化版本,低配置环境也能流畅运行。
- 应用端与生态
- 阶跃 AI App:移动端应用,手机直接体验问答与 Agent 能力。
- Agent 框架接入:Kilo Code、Nous Research(Hermes Agent)等已验证的 Agent 工具中配置 API 端点即可驱动 Coding 与自动化工作流。
Step 3.7 Flash的核心优势
- 极速推理:单请求最高 400 TPS,高频多轮场景的等待时间被压缩到很低。
- 激活参数极低:仅 11B 激活参数,推理成本大幅降低,性价比极高。
- 生产级可靠性:Toolathlon(49.5%)、ClawEval-1.1(67.1%)、GDPval(45.8%)这些真实环境基准表现都挺稳。
- 多模态深度理解:SimpleVQA(79.2%)、V*(95.3%)等复杂视觉任务上能和大规模旗舰模型掰手腕。
- 生态即插即用:主流 Agent 框架和 MCP/Skills 协议都做了预优化,接入成本低。
Step 3.7 Flash的项目地址
- 项目官网:https://static.stepfun.com/blog/step-3.7-flash/
- GitHub仓库:https://github.com/stepfun-ai/Step-3.7-Flash
- HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.7-Flash
Step 3.7 Flash的同类竞品对比
| 对比维度 | Step 3.7 Flash | Step 3.5 Flash | Gemini 2.5 Flash |
|---|---|---|---|
| 架构 | 稀疏 MoE,196B/11B 激活 | 前代 Flash 架构未知 | 未知 |
| 最高速度 | 400 TPS | 较低 | 较高 |
| SWE-Bench Pro | 56.3 | 51.3 | 55.6 |
| Terminal-Bench 2.1 | 59.5 | 53.4 | 62.0 |
| SimpleVQA (Tool) | 79.2 | 78.2 | 78.2 |
| V* (Python) | 95.3 | 89.0 | 96.9 |
| ClawEval-1.1 | 67.1 | 43.6 | 57.8 |
| Toolathlon | 49.5 | 33.3 | 52.8 |
| HLE (Tool) | 47.2 | 35.7 | 45.1 |
| 开源 | ✅ 完全开源 | ✅ 开源 | ❌ 闭源 |
Step 3.7 Flash的应用场景
- Coding Agent:SWE-Bench Pro 和 Terminal-Bench 的表现表明,它在代码生成、调试、终端操作这些开发任务上很可靠。
- 多模态知识工作:自动理解 UI 界面、图表、文档并生成结构化分析或操作指引,产品分析、设计评审、软件教程生成这些场景都会很受益。
- 企业流程自动化:稳定调用 API、Office 系统和外部系统,数据录入、报表生成、跨系统操作这些枯燥重复的工作可以交给它。
- 视觉搜索与验证:信息不明确时主动发起图像搜索和交叉验证,电商比价、内容审核、事实核查这些场景尤其需要这种能力。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。