进阶教程
谷歌3.5
谷歌3.5 Flash小模型反杀3.1 Pro性能评测
摘要
谷歌I O发布Gemini3 5Flash,小模型全面超越上代Pro,代码、多模态领先,输出289token s,成本更
凌晨,谷歌按惯例举办了年度I/O大会。
信息密度依旧极高。模型、产品、Agent、搜索、硬件,一口气发布了十几项更新。Pichai开场点明核心:过去十年谷歌持续向AI转型,现在是展示成果的时候。
挑几个关键项,逐一拆解。
---
## 一、Gemini 3.5 Flash:小模型反杀旗舰,今晚真正的主角
发布会上几乎所有产品的底层,都换成了这个模型。
先说产品线逻辑。Gemini一直分两条路:Flash主打快和便宜,Pro定位旗舰最强。过去Flash需要牺牲部分能力换取速度和成本,Pro则不遗余力追求极致性能。
结果这次,3.5 Flash直接把上一代旗舰3.1 Pro给超了。
直接看成绩单:
* 代码(Terminal-Bench 2.1):76.2%,3.1 Pro为70.3%
* Agent任务(GDPval-AA):1656 Elo,3.1 Pro为1314 Elo,领先三百多分
* 工具调用(MCP Atlas):83.6%,3.1 Pro为73.9%
* 多模态理解(MMMU-Pro):81.2%
* 博士级科学推理(GPQA Diamond):90.4%
* 代码修复(SWE-bench Verified):78%
特别提一下多模态理解的81.2%,全球第一。多模态这块,Gemini确实稳。
速度方面,Pichai原话:输出速度是其他前沿模型的4倍,每秒289个token。谷歌内部还做了一个12倍速优化版本,同等质量下推理速度再翻三倍。
价格上,比上代旗舰强,还更便宜:
* 3.5 Flash:输入$1.50 / 输出$9.00(每百万token)
* 3.1 Pro(上代旗舰):输入$2.00 / 输出$12.00
* Claude Sonnet 4.6:输入$3.00 / 输出$15.00
输出成本大约是Claude Sonnet的六折。
不过得客观提一下短板。3.5 Flash在纯知识类和抽象推理上仍弱于3.1 Pro:
* 人类最后考试(HLE):40.2% vs 3.1 Pro的44.4%
* ARC-AGI-2:72.1% vs 3.1 Pro的77.1%
至于怎么用,目前ai.studio和Gemini app可以直接免费体验,简单对话十来轮,还没碰到限制。
---
## 二、Gemini Omni:DeepMind的世界模型
由DeepMind CEO Demis Hassabis亲自上台介绍。能让Demis亲自讲的,分量不一般,也是整场发布会第一个出场的模型。
Demis给它的定位是World Model,世界模型。这个词谷歌以前很少在发布会上直接提。
之前有Genie 2、Genie 3,能用文本生成可探索的3D世界,但那些服务于Agent训练和机器人仿真,普通用户基本碰不到。
这次Omni的关键词是:any input → any output。无需从一段prompt开始。文本、图片、音频、视频可以同时混着作为输入,Omni理解这些素材之间的关系,然后生成或修改。比如,把视频里的动作、人物、场景都换掉。
简单说,Genie是造世界,Omni是编辑世界。
首发的是Omni Flash版本,今天起对Google AI Plus、Pro和Ultra订阅用户开放。YouTube Shorts下周也会接入。
Hassabis说了句很关键的话:World Model的终极目标是训练机器人。模型理解物理世界后,机器人就能先在模型里练,再去真实世界干活。野心很大。
---
## 三、Antigravity 2.0:谷歌版Claude Code
这个产品去年就有了,但这次I/O直接升到2.0,给了很大篇幅。
看完发布会要问它是什么?答案是:谷歌版的Claude Code。
准确说,它升级成了一个以Agent为核心的开发环境。核心能力包括:
* **Dynamic Subagents**:可以派生子Agent并行执行任务
* **Scheduled Tasks**:后台定时自动化
* **AgentKit 2.0 SDK**:开发者可以自定义Agent行为,部署到自己的基础设施
三种使用方式:全新独立桌面应用(图形界面,可以编排多个Agent)、Antigravity CLI(终端操作)、SDK(嵌入你自己的代码部署)。
谷歌在台上演示了一个案例:用Antigravity 2.0在12小时内从零搭出了一个能跑的操作系统内核。过程中自动启动了93个子Agent并行干活,处理了26亿token,总成本不到1000美元。现场还在这个系统上跑了Doom。
---
## 四、Gemini Spark:关掉电脑,AI继续帮你干活
Spark是Gemini App新加的一个模式。Antigravity是开发者侧的Agent工作台,Spark就是消费端的。
定位很清晰:持久化AI Agent,跨应用自主工作,不再是被动等指令的助手。
24/7在线替你干活不新鲜,Spark的亮点是:你可以关掉电脑,任务不停。你交代一个任务,Spark会在后台持续推进。关掉电脑,回到手机、浏览器、Gemini App,它还能把状态交回来。因为Spark不是跑在本地的,而是直接跑在Google Cloud上。
而且因为跑在云端,能直接调用Google全家桶——Gmail、Docs、Sheets、Calendar、Chrome、Android,跨多个应用执行任务。后面还会通过MCP接第三方工具,比如Canva、OpenTable、Instacart。
Android上会有一个叫Android Halo的新UI区域,用来实时查看Spark这类Agent的进度更新。
不过目前限制也挺多:下周先对美国的AI Ultra订阅用户开放Beta,而且高风险操作(发邮件、花钱)会弹确认。
---
## 五、Search:25年来最大的一次升级
谷歌自己说的——这是搜索框25年来最大的一次升级。
今天起,AI Mode把Gemini 3.5 Flash作为全球默认模型。新的搜索框会动态展开,可以接文字、图片、文件、视频,甚至Chrome标签页。
过去搜索框的核心是关键词。现在谷歌直接让你把完整的意图、复杂的材料、更长的上下文都塞进去。
新能力主要分两条线。
第一条:**Information Agents**。你可以在搜索里创建多个信息Agent,让它们在后台24/7持续监控网页、新闻、博客、社交、金融、购物、体育等数据。找公寓、盯价格、追新品、看比赛,这些以前要反复搜的事情,现在让Agent自己盯。今年夏天对Pro和Ultra订阅用户开放。
第二条:**Generative UI**。问一个复杂问题,搜索不只给你链接,而是直接调用3.5 Flash和Antigravity的能力,实时生成交互式表格、可视化工具、自定义仪表盘。今年夏天免费向所有用户开放。
搜索框是谷歌最核心的资产。用户的需求从这里开始,广告、购物、地图、YouTube,后面所有的生意才接得上。所以这次Search升级,本质上是谷歌的入口防守战。
---
## 六、订阅体系调整
顺带说一下这次的订阅变化:
* 新增AI Plus:$7.99/月,入门级付费
* AI Pro不变:$19.99/月
* 新增AI Ultra $100/月:面向开发者,5倍于Pro的使用额度
* AI Ultra $200/月:从$249.99降价,功能不变
从固定次数限制改成了基于计算量的动态额度,每5小时刷新一次。达到上限后不会断掉,而是降级到Flash-Lite继续服务。另外用量不够的时候,Pro和Ultra用户可以按需购买AI积分充值。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。