阶跃新模型评测:大模型下一个战场抢先机
摘要
一个新趋势已然明朗:模型发布时的榜单分数不再是焦点。行业逐步达成共识——纯粹的单
一个新趋势已然明朗:模型发布时的榜单分数不再是焦点。行业逐步达成共识——纯粹的单点能力正在贬值,能让Agent稳定执行任务的模型才是真正的核心竞争力。对大型语言模型厂商而言,做好Agent的底层基座模型,很可能成为未来更大的增量市场,也是下一轮争夺的制高点。
阶跃星辰精准捕捉到这一动向并快速落子。本次发布的「Step 3.7 Flash」,官方定位为面向生产级场景的高效Agent模型。为了验证实际效果,我们将其接入真实工作流,用业务场景来检验。顺便分享一套日常信息获取的AI工作流。

整个流程拆解为三步:批量抓取前沿AI资讯 → 深度解析特定话题 → 自动生成可视化信息图。
第一步:抓取前沿AI资讯
这个任务看似简单,实则涉及大量变量,成功率并不高。工具内置了数十个AI资讯源,按抓取策略分为三类:RSS解析、Crawl4AI、Paywall或其他方案。不同站点防护机制不同,抓取难度差异大,网络波动也会影响结果。过去,这些站点通常只有一小部分能成功提取数据。
本次任务设定为抓取3日内的AI资讯。指令下达后,原本预期需要等待较长时间——用Claude和Gemini时效果虽好,但每次至少20分钟,通常只能后台挂起。结果让人意外:几分钟后任务完成,成功获取349条信息。

从后台日志看,本次任务成本约2元,仅为Claude的1/20——这还是第三方渠道的价格,实际更优。
查看输出文件。

349条远超此前任何一次执行结果。当然,存在一个小瑕疵:会混入泛科技、其他学科的非精准AI资讯。但单看每条的结构,表现不错,几乎无幻觉。尤其是原始链接,随手点开几个都是正确的。之前测试能力中等模型,链接地址经常出现编造。
这一步极其考验工具调用能力。任务不是简单检索,而是需要在RSS解析、脚本撰写、程序执行、网页抓取、链接读取、文件写入之间多次切换。过去用多个模型跑过此任务,成功率和效果都偏低——一进入多工具、多步骤流程,就容易漏步骤、重复调用、卡在无效链接上、中途忘记目标。Step 3.7 Flash的工具调用链路相当稳健,没有把任务跑散。
第二步:深入获取话题信息
对于感兴趣的话题,需要进一步获取更多上下文。这里分两步:首先检索话题的相关文章链接,然后汇总全部信息点。这样做可以更全面地了解事件全貌,包括衍生事件和相似事件。并且按照事件逻辑梳理信息点,列出每个信息点对应的原文,阅读更高效、更清晰,同时有效降低幻觉。
例如想了解这个话题:"Anthropic联合创始人前往梵蒂冈,告诉教皇他们在AI模型中发现了‘令人不安’的东西"。把话题交给工具,让它先收集链接,再汇总信息。

任务迅速完成。下面是两个文件内容:


清晰且准确。这两份文件既能作为个人阅读参考,也可直接用于撰写文章。
一个真正能顶事的Agent,不能只依赖大模型的训练数据回答问题。它必须具备主动搜索、来源判断、交叉验证的能力,把搜索结果转化为可引用、可追溯的结构化信息。这一步得益于Step自带的检索能力,任务执行得非常丝滑。
第三步:生成可视化信息图
本次生成了4种不同风格的信息图,未指定具体风格,无复杂提示词,完全由模型自主发挥。

结果如下:




效果不错,适合嵌入文章,方便读者理解和保存。
值得强调的是,Step 3.7 Flash具备原生多模态能力。图片理解、视觉检索这类任务,Agent无需再调用外部工具。比如将第一张信息图的一部分截取出来,命令它调整文字:

模型精准定位到相应区域并完成修正。

整个工作流跑完,整体表现超出预期。实话实说,论效果Claude Opus 4.7确实更胜一筹,但对于绝大多数日常任务,Step 3.7 Flash完全够用,并且在执行速度和成本上优势明显。像第一步抓取AI资讯这种任务,日常用Claude Opus 4.7确实成本偏高。
网上不少人调侃:AI并没有让我们更轻松,反而更累。确实曾经历那个阶段,但如今的AI真正减轻了工作负担。转折点在于:一个好用的Agent框架,搭配一个稳定、高效、经济可承受的基础模型。比如刚刚展示的工作,本来无需多少人工介入,过去却往往占据一整天,现在半小时搞定。省下的精力,可以支撑更多高价值任务。
这套AI信息获取工作流,对AI博主有用,对产品经理、投资人、研究员、创业者也同样有用。我们缺的从来不是信息量,而是信息获取、整理和吸收的效率。
回到Step 3.7 Flash本身
光看模型名称,可能会觉得这只是一个更快、更便宜的Flash模型。但阶跃这次赋予它的定位,远不止于此。按官方定义,Step 3.7 Flash是面向生产级Agent的高效Flash模型,专为Agent、编码、搜索与多模态工作流而生,开放可部署,并且为高效完成真实任务而优化。

什么叫生产级Agent?生产级任务不是单次回答,而是一串连续动作:理解目标,拆解任务,搜索实时信息,读取文档,筛选来源,整理证据,生成结果,再检查是否遗漏、是否严格遵循指令。中间任何一步慢一点、偏一点、漏一点,最终都会转化为成本。
下一阶段模型竞争,看的将不只是单点能力,而是Agent循环中的总效率。便宜的模型,如果每次执行低效,跑完整个任务并不省钱;聪明的模型,如果执行缓慢或价格昂贵,实际生产环境根本跑不起来或跑不起。因此现在对模型的要求,也可以说Agent对模型的要求,是能否以更低延迟、更低成本、更稳定的方式,把完整工作流跑完。Step 3.7 Flash的价值,正好落在这里。
提到生产级,必须提开源。对普通用户来说,开源并不那么吸引人。但对做生产环境的人而言,开源意味着安全。很多企业做Agent,重点考虑的是数据边界、稳定性、版本可控、业务系统集成、长期维护。Step 3.7 Flash作为开源、可本地部署的模型,提供了另一种掌控感——可控性更强,部署更灵活,集成更深,信任才能落地。
Step 3.7 Flash还有一个关键点:原生多模态。在很多场景中,数据并不都是文本形态。截图、PDF、网页、视频,都会进入工作流。过去开发者可能需要额外编排视觉模块,把图片先交给OCR,再交给另一个模型理解,再把结果塞回Agent流程。工程里最贵的,常常不是单个模块本身,而是模块之间的衔接成本。原生多模态的意义就在于此:视觉理解可以直接进入Agent工作流,与代码生成、搜索、工具调用并列。对开发者来说,省下来的不只是提示词,更是编排成本。
如果还在为Agent寻找合适的模型,Step 3.7 Flash值得一试。不必纠结纸面参数,把它放进真实工作流里,才能真切感受到它的效率与优势。在AI产业化全速推进的当下,期待更多厂商跳出参数内卷,深耕真实场景,推出更多贴合生产级需求、能落地、能打硬仗的优质模型。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。