产业资讯

Step 3.7 Flash开源模型深度测评：阶跃星辰新标杆

2026-05-29

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Step 3 7 Flash是什么看到阶跃星辰推出的新一代开源 Flash 模型，有个点特别值得拿出来说说

Step 3.7 Flash是什么

看到阶跃星辰推出的新一代开源 Flash 模型，有个点特别值得拿出来说说——它专门给 Agent 生产化阶段做了深度优化。Step 3.7 Flash 这个型号，听名字就知道定位清晰：不是为了炫参数，而是要解决 Agent 落地时的"快、省、稳"三角难题。采用稀疏 MoE 架构，最高生成速度能到 400 Tokens/s，这个速度在开源模型里相当能打。

它在 Agent、Coding、Search 和多模态工作流这几个场景上做了系统性的优化。说白了，就是让开发者用它来构建生产级的 Agent 时，不用在速度和成本之间艰难取舍，也不用担心复杂任务执行到一半突然掉链子。

Step 3.7 Flash的主要功能

原生多模态理解与执行：UI、图表、文档、应用界面这些复杂视觉信息，它都能直接"看懂"并转化为可执行的任务。还能自主裁剪、放大、重读图像，相当于视觉模块自带了一个"智能放大镜"。
联网与视觉搜索增强：不光能联网查文本，还能搜图像。在信息不明确的环境中，它会主动去抓取多源证据并交叉比对，这在实际场景里非常实用。
高可靠工具调用与编排：这个能力对 Agent 开发者来说太关键了——在长程多轮工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统，保持任务轨迹一致，不容易出岔子。
Agent 生态兼容优化：Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw 这些主流框架以及 MCP/Skills 协议，它都做了适配。拿来就能用，不用花太多时间配置。
本地与云端双部署：既支持云端 API 调用，也给本地部署做了充分准备，提供 GGUF 多精度端侧版本。大模型的小弟也能跑得动。

Step 3.7 Flash的技术原理

稀疏 MoE 架构：总参数 196B 加上 1.8B 的 ViT ，但激活参数只有 11B 。这意味着什么？用更少的计算量，跑出更高的性能。模型能力和推理成本之间找到了一个很精妙的平衡点。
视觉感知-搜索-推理融合：视觉感知、搜索和推理这三个环节不再割裂。面对复杂视觉问题时，模型能自主发起搜索进行交叉验证——这才是人类做这类事情的真实方式。
长程任务轨迹保持：多轮 Agent 工作流最怕的就是任务轨迹跑偏。它对这个问题做了针对性优化，降低了执行失败率。
多精度端侧优化：GGUF 格式加上多精度量化版本，适配不同硬件资源，从云服务器到个人工作站都能跑起来。

如何使用Step 3.7 Flash

云端接入
- 国内开放平台 API：访问 https://platform.stepfun.com 注册获取 API Key ，标准接口调用，上手速度快。
- 海外开放平台 API：https://platform.stepfun.ai 用于海外节点接入，适合国际业务场景。
- Studio 在线体验：https://studio.stepfun.com/ 直接网页端体验对话与多模态能力，不用任何配置。
开源部署
- GitHub 仓库：https://github.com/stepfun-ai/Step-3.7-Flash 完整代码与权重，按文档部署即可。
- Huggingface 模型：https://huggingface.co/stepfun-ai/Step-3.7-Flash 模型文件，Transformers 等主流框架直接加载推理。
- Modelscope 模型：https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash 适合国内开发者快速拉取。
- 端侧 GGUF 版本：https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF 多精度量化版本，低配置环境也能流畅运行。
应用端与生态
- 阶跃 AI App：移动端应用，手机直接体验问答与 Agent 能力。
- Agent 框架接入：Kilo Code、Nous Research（Hermes Agent）等已验证的 Agent 工具中配置 API 端点即可驱动 Coding 与自动化工作流。

Step 3.7 Flash的核心优势

极速推理：单请求最高 400 TPS，高频多轮场景的等待时间被压缩到很低。
激活参数极低：仅 11B 激活参数，推理成本大幅降低，性价比极高。
生产级可靠性：Toolathlon（49.5%）、ClawEval-1.1（67.1%）、GDPval（45.8%）这些真实环境基准表现都挺稳。
多模态深度理解：SimpleVQA（79.2%）、V*（95.3%）等复杂视觉任务上能和大规模旗舰模型掰手腕。
生态即插即用：主流 Agent 框架和 MCP/Skills 协议都做了预优化，接入成本低。

Step 3.7 Flash的项目地址

项目官网：https://static.stepfun.com/blog/step-3.7-flash/
GitHub仓库：https://github.com/stepfun-ai/Step-3.7-Flash
HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-3.7-Flash

Step 3.7 Flash的同类竞品对比

对比维度	Step 3.7 Flash	Step 3.5 Flash	Gemini 2.5 Flash
架构	稀疏 MoE，196B/11B 激活	前代 Flash 架构未知	未知
最高速度	400 TPS	较低	较高
SWE-Bench Pro	56.3	51.3	55.6
Terminal-Bench 2.1	59.5	53.4	62.0
SimpleVQA (Tool)	79.2	78.2	78.2
*V (Python)**	95.3	89.0	96.9
ClawEval-1.1	67.1	43.6	57.8
Toolathlon	49.5	33.3	52.8
HLE (Tool)	47.2	35.7	45.1
开源	✅ 完全开源	✅ 开源	❌ 闭源

Step 3.7 Flash的应用场景

Coding Agent：SWE-Bench Pro 和 Terminal-Bench 的表现表明，它在代码生成、调试、终端操作这些开发任务上很可靠。
多模态知识工作：自动理解 UI 界面、图表、文档并生成结构化分析或操作指引，产品分析、设计评审、软件教程生成这些场景都会很受益。
企业流程自动化：稳定调用 API、Office 系统和外部系统，数据录入、报表生成、跨系统操作这些枯燥重复的工作可以交给它。
视觉搜索与验证：信息不明确时主动发起图像搜索和交叉验证，电商比价、内容审核、事实核查这些场景尤其需要这种能力。

来源：互联网

上一篇 微软与优重新评估AI成本 Token量飙升难见成效 下一篇 Hy-Memory深度测评：腾讯混元Agent记忆插件排行

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。