进阶教程谷歌3.5

谷歌3.5 Flash小模型反杀3.1 Pro性能评测

2026-05-29

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

谷歌I O发布Gemini3 5Flash，小模型全面超越上代Pro，代码、多模态领先，输出289token s，成本更

凌晨，谷歌按惯例举办了年度I/O大会。信息密度依旧极高。模型、产品、Agent、搜索、硬件，一口气发布了十几项更新。Pichai开场点明核心：过去十年谷歌持续向AI转型，现在是展示成果的时候。挑几个关键项，逐一拆解。 --- ## 一、Gemini 3.5 Flash：小模型反杀旗舰，今晚真正的主角发布会上几乎所有产品的底层，都换成了这个模型。先说产品线逻辑。Gemini一直分两条路：Flash主打快和便宜，Pro定位旗舰最强。过去Flash需要牺牲部分能力换取速度和成本，Pro则不遗余力追求极致性能。结果这次，3.5 Flash直接把上一代旗舰3.1 Pro给超了。直接看成绩单： * 代码（Terminal-Bench 2.1）：76.2%，3.1 Pro为70.3% * Agent任务（GDPval-AA）：1656 Elo，3.1 Pro为1314 Elo，领先三百多分 * 工具调用（MCP Atlas）：83.6%，3.1 Pro为73.9% * 多模态理解（MMMU-Pro）：81.2% * 博士级科学推理（GPQA Diamond）：90.4% * 代码修复（SWE-bench Verified）：78% 特别提一下多模态理解的81.2%，全球第一。多模态这块，Gemini确实稳。速度方面，Pichai原话：输出速度是其他前沿模型的4倍，每秒289个token。谷歌内部还做了一个12倍速优化版本，同等质量下推理速度再翻三倍。价格上，比上代旗舰强，还更便宜： * 3.5 Flash：输入$1.50 / 输出$9.00（每百万token） * 3.1 Pro（上代旗舰）：输入$2.00 / 输出$12.00 * Claude Sonnet 4.6：输入$3.00 / 输出$15.00 输出成本大约是Claude Sonnet的六折。不过得客观提一下短板。3.5 Flash在纯知识类和抽象推理上仍弱于3.1 Pro： * 人类最后考试（HLE）：40.2% vs 3.1 Pro的44.4% * ARC-AGI-2：72.1% vs 3.1 Pro的77.1% 至于怎么用，目前ai.studio和Gemini app可以直接免费体验，简单对话十来轮，还没碰到限制。 --- ## 二、Gemini Omni：DeepMind的世界模型由DeepMind CEO Demis Hassabis亲自上台介绍。能让Demis亲自讲的，分量不一般，也是整场发布会第一个出场的模型。 Demis给它的定位是World Model，世界模型。这个词谷歌以前很少在发布会上直接提。之前有Genie 2、Genie 3，能用文本生成可探索的3D世界，但那些服务于Agent训练和机器人仿真，普通用户基本碰不到。这次Omni的关键词是：any input → any output。无需从一段prompt开始。文本、图片、音频、视频可以同时混着作为输入，Omni理解这些素材之间的关系，然后生成或修改。比如，把视频里的动作、人物、场景都换掉。简单说，Genie是造世界，Omni是编辑世界。首发的是Omni Flash版本，今天起对Google AI Plus、Pro和Ultra订阅用户开放。YouTube Shorts下周也会接入。 Hassabis说了句很关键的话：World Model的终极目标是训练机器人。模型理解物理世界后，机器人就能先在模型里练，再去真实世界干活。野心很大。 --- ## 三、Antigravity 2.0：谷歌版Claude Code 这个产品去年就有了，但这次I/O直接升到2.0，给了很大篇幅。看完发布会要问它是什么？答案是：谷歌版的Claude Code。准确说，它升级成了一个以Agent为核心的开发环境。核心能力包括： * **Dynamic Subagents**：可以派生子Agent并行执行任务 * **Scheduled Tasks**：后台定时自动化 * **AgentKit 2.0 SDK**：开发者可以自定义Agent行为，部署到自己的基础设施三种使用方式：全新独立桌面应用（图形界面，可以编排多个Agent）、Antigravity CLI（终端操作）、SDK（嵌入你自己的代码部署）。谷歌在台上演示了一个案例：用Antigravity 2.0在12小时内从零搭出了一个能跑的操作系统内核。过程中自动启动了93个子Agent并行干活，处理了26亿token，总成本不到1000美元。现场还在这个系统上跑了Doom。 --- ## 四、Gemini Spark：关掉电脑，AI继续帮你干活 Spark是Gemini App新加的一个模式。Antigravity是开发者侧的Agent工作台，Spark就是消费端的。定位很清晰：持久化AI Agent，跨应用自主工作，不再是被动等指令的助手。 24/7在线替你干活不新鲜，Spark的亮点是：你可以关掉电脑，任务不停。你交代一个任务，Spark会在后台持续推进。关掉电脑，回到手机、浏览器、Gemini App，它还能把状态交回来。因为Spark不是跑在本地的，而是直接跑在Google Cloud上。而且因为跑在云端，能直接调用Google全家桶——Gmail、Docs、Sheets、Calendar、Chrome、Android，跨多个应用执行任务。后面还会通过MCP接第三方工具，比如Canva、OpenTable、Instacart。 Android上会有一个叫Android Halo的新UI区域，用来实时查看Spark这类Agent的进度更新。不过目前限制也挺多：下周先对美国的AI Ultra订阅用户开放Beta，而且高风险操作（发邮件、花钱）会弹确认。 --- ## 五、Search：25年来最大的一次升级谷歌自己说的——这是搜索框25年来最大的一次升级。今天起，AI Mode把Gemini 3.5 Flash作为全球默认模型。新的搜索框会动态展开，可以接文字、图片、文件、视频，甚至Chrome标签页。过去搜索框的核心是关键词。现在谷歌直接让你把完整的意图、复杂的材料、更长的上下文都塞进去。新能力主要分两条线。第一条：**Information Agents**。你可以在搜索里创建多个信息Agent，让它们在后台24/7持续监控网页、新闻、博客、社交、金融、购物、体育等数据。找公寓、盯价格、追新品、看比赛，这些以前要反复搜的事情，现在让Agent自己盯。今年夏天对Pro和Ultra订阅用户开放。第二条：**Generative UI**。问一个复杂问题，搜索不只给你链接，而是直接调用3.5 Flash和Antigravity的能力，实时生成交互式表格、可视化工具、自定义仪表盘。今年夏天免费向所有用户开放。搜索框是谷歌最核心的资产。用户的需求从这里开始，广告、购物、地图、YouTube，后面所有的生意才接得上。所以这次Search升级，本质上是谷歌的入口防守战。 --- ## 六、订阅体系调整顺带说一下这次的订阅变化： * 新增AI Plus：$7.99/月，入门级付费 * AI Pro不变：$19.99/月 * 新增AI Ultra $100/月：面向开发者，5倍于Pro的使用额度 * AI Ultra $200/月：从$249.99降价，功能不变从固定次数限制改成了基于计算量的动态额度，每5小时刷新一次。达到上限后不会断掉，而是降级到Flash-Lite继续服务。另外用量不够的时候，Pro和Ultra用户可以按需购买AI积分充值。

来源：互联网

上一篇 Cursor vs Claude Code：AI编程工具深度对比评测 下一篇 开源GPT-Image2生图Skill：从入门到精通玩法指南、对比测评与实战案例详解

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

谷歌3.5 Flash小模型反杀3.1 Pro性能评测

摘要

相关文章推荐