其他资讯人工智能大模型阶跃新模型

阶跃新模型评测：大模型下一个战场抢先机

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

一个新趋势已然明朗：模型发布时的榜单分数不再是焦点。行业逐步达成共识——纯粹的单

一个新趋势已然明朗：模型发布时的榜单分数不再是焦点。行业逐步达成共识——纯粹的单点能力正在贬值，能让Agent稳定执行任务的模型才是真正的核心竞争力。对大型语言模型厂商而言，做好Agent的底层基座模型，很可能成为未来更大的增量市场，也是下一轮争夺的制高点。

阶跃星辰精准捕捉到这一动向并快速落子。本次发布的「Step 3.7 Flash」，官方定位为面向生产级场景的高效Agent模型。为了验证实际效果，我们将其接入真实工作流，用业务场景来检验。顺便分享一套日常信息获取的AI工作流。

整个流程拆解为三步：批量抓取前沿AI资讯 → 深度解析特定话题 → 自动生成可视化信息图。

第一步：抓取前沿AI资讯

这个任务看似简单，实则涉及大量变量，成功率并不高。工具内置了数十个AI资讯源，按抓取策略分为三类：RSS解析、Crawl4AI、Paywall或其他方案。不同站点防护机制不同，抓取难度差异大，网络波动也会影响结果。过去，这些站点通常只有一小部分能成功提取数据。

本次任务设定为抓取3日内的AI资讯。指令下达后，原本预期需要等待较长时间——用Claude和Gemini时效果虽好，但每次至少20分钟，通常只能后台挂起。结果让人意外：几分钟后任务完成，成功获取349条信息。

从后台日志看，本次任务成本约2元，仅为Claude的1/20——这还是第三方渠道的价格，实际更优。

查看输出文件。

349条远超此前任何一次执行结果。当然，存在一个小瑕疵：会混入泛科技、其他学科的非精准AI资讯。但单看每条的结构，表现不错，几乎无幻觉。尤其是原始链接，随手点开几个都是正确的。之前测试能力中等模型，链接地址经常出现编造。

这一步极其考验工具调用能力。任务不是简单检索，而是需要在RSS解析、脚本撰写、程序执行、网页抓取、链接读取、文件写入之间多次切换。过去用多个模型跑过此任务，成功率和效果都偏低——一进入多工具、多步骤流程，就容易漏步骤、重复调用、卡在无效链接上、中途忘记目标。Step 3.7 Flash的工具调用链路相当稳健，没有把任务跑散。

第二步：深入获取话题信息

对于感兴趣的话题，需要进一步获取更多上下文。这里分两步：首先检索话题的相关文章链接，然后汇总全部信息点。这样做可以更全面地了解事件全貌，包括衍生事件和相似事件。并且按照事件逻辑梳理信息点，列出每个信息点对应的原文，阅读更高效、更清晰，同时有效降低幻觉。

例如想了解这个话题："Anthropic联合创始人前往梵蒂冈，告诉教皇他们在AI模型中发现了‘令人不安’的东西"。把话题交给工具，让它先收集链接，再汇总信息。

任务迅速完成。下面是两个文件内容：

清晰且准确。这两份文件既能作为个人阅读参考，也可直接用于撰写文章。

一个真正能顶事的Agent，不能只依赖大模型的训练数据回答问题。它必须具备主动搜索、来源判断、交叉验证的能力，把搜索结果转化为可引用、可追溯的结构化信息。这一步得益于Step自带的检索能力，任务执行得非常丝滑。

第三步：生成可视化信息图

本次生成了4种不同风格的信息图，未指定具体风格，无复杂提示词，完全由模型自主发挥。

结果如下：

效果不错，适合嵌入文章，方便读者理解和保存。

值得强调的是，Step 3.7 Flash具备原生多模态能力。图片理解、视觉检索这类任务，Agent无需再调用外部工具。比如将第一张信息图的一部分截取出来，命令它调整文字：

模型精准定位到相应区域并完成修正。

整个工作流跑完，整体表现超出预期。实话实说，论效果Claude Opus 4.7确实更胜一筹，但对于绝大多数日常任务，Step 3.7 Flash完全够用，并且在执行速度和成本上优势明显。像第一步抓取AI资讯这种任务，日常用Claude Opus 4.7确实成本偏高。

网上不少人调侃：AI并没有让我们更轻松，反而更累。确实曾经历那个阶段，但如今的AI真正减轻了工作负担。转折点在于：一个好用的Agent框架，搭配一个稳定、高效、经济可承受的基础模型。比如刚刚展示的工作，本来无需多少人工介入，过去却往往占据一整天，现在半小时搞定。省下的精力，可以支撑更多高价值任务。

这套AI信息获取工作流，对AI博主有用，对产品经理、投资人、研究员、创业者也同样有用。我们缺的从来不是信息量，而是信息获取、整理和吸收的效率。

回到Step 3.7 Flash本身

光看模型名称，可能会觉得这只是一个更快、更便宜的Flash模型。但阶跃这次赋予它的定位，远不止于此。按官方定义，Step 3.7 Flash是面向生产级Agent的高效Flash模型，专为Agent、编码、搜索与多模态工作流而生，开放可部署，并且为高效完成真实任务而优化。

什么叫生产级Agent？生产级任务不是单次回答，而是一串连续动作：理解目标，拆解任务，搜索实时信息，读取文档，筛选来源，整理证据，生成结果，再检查是否遗漏、是否严格遵循指令。中间任何一步慢一点、偏一点、漏一点，最终都会转化为成本。

下一阶段模型竞争，看的将不只是单点能力，而是Agent循环中的总效率。便宜的模型，如果每次执行低效，跑完整个任务并不省钱；聪明的模型，如果执行缓慢或价格昂贵，实际生产环境根本跑不起来或跑不起。因此现在对模型的要求，也可以说Agent对模型的要求，是能否以更低延迟、更低成本、更稳定的方式，把完整工作流跑完。Step 3.7 Flash的价值，正好落在这里。

提到生产级，必须提开源。对普通用户来说，开源并不那么吸引人。但对做生产环境的人而言，开源意味着安全。很多企业做Agent，重点考虑的是数据边界、稳定性、版本可控、业务系统集成、长期维护。Step 3.7 Flash作为开源、可本地部署的模型，提供了另一种掌控感——可控性更强，部署更灵活，集成更深，信任才能落地。

Step 3.7 Flash还有一个关键点：原生多模态。在很多场景中，数据并不都是文本形态。截图、PDF、网页、视频，都会进入工作流。过去开发者可能需要额外编排视觉模块，把图片先交给OCR，再交给另一个模型理解，再把结果塞回Agent流程。工程里最贵的，常常不是单个模块本身，而是模块之间的衔接成本。原生多模态的意义就在于此：视觉理解可以直接进入Agent工作流，与代码生成、搜索、工具调用并列。对开发者来说，省下来的不只是提示词，更是编排成本。

如果还在为Agent寻找合适的模型，Step 3.7 Flash值得一试。不必纠结纸面参数，把它放进真实工作流里，才能真切感受到它的效率与优势。在AI产业化全速推进的当下，期待更多厂商跳出参数内卷，深耕真实场景，推出更多贴合生产级需求、能落地、能打硬仗的优质模型。

来源：互联网

上一篇 法拉第未来获7000万美元融资贾跃亭重返CEO推AI机器人战略 下一篇 成都三大产业加速成型：人工智能、低空经济、绿色氢能

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

阶跃新模型评测：大模型下一个战场抢先机

摘要

第一步：抓取前沿AI资讯

第二步：深入获取话题信息

第三步：生成可视化信息图

回到Step 3.7 Flash本身

相关文章推荐