其他资讯

商汤8B参数开源生图模型评测：去掉VAE后性能上限突破

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

商汤开源SenseNovaU1模型，采用NEO-unify架构，去除VAE和视觉编码器，在像素层面端到端统一多

开源仅一周有余，GitHub 星数已突破 1,500，并登上 HuggingFace 趋势榜——商汤 SenseNova U1 在开发者社区引发的关注度，与其技术野心一样不同寻常。它的核心动作只有一个：将多模态理解与生成真正塞进同一套模型架构中。开发者们目前讨论的焦点，除了生成效果的惊艳程度，还有一个更底层的问题：为什么这一次连 VAE 也彻底去掉了？从 Stable Diffusion 到 FLUX，几乎所有主流扩散模型都依赖变分自编码器（VAE）将图像压缩到潜在空间，这几乎成了近年来整个图像生成技术栈的地基。而 SenseNova U1 的 NEO-unify 架构直接选择拆掉它，在像素层面端到端建模语言与视觉信息。这已不是工程优化，而是架构层面的根本性选边。 HuggingFace 社区的热门讨论，包括「能否在单张 RTX 5090 上运行」「是否会有更轻量版本」这类极具落地导向的问题，说明大量开发者已在认真跑通它。有开发者评价称，这是「终于有人在原生统一方向上认真做了工程落地」，和此前的伪统一架构完全不可同日而语。与此同时，模型以 Apache 2.0 协议完全开源，支持商用。发布后不到两周，团队已陆续推出 8 步推理加速版、LoRA 微调版、GGUF 量化版及低显存 layer-offload 推理模式，迭代节奏之快，也是社区热度持续的原因之一。 ## 01 多模态的「两条腿走路」，走了太久多模态理解与生成，长期处于「两条腿走路」的状态。在多模态理解方面，以 GPT-4V、LLaVA、Qwen-VL 为代表的视觉语言模型（VLM）能够执行复杂的图像描述、视觉问答和推理任务；而图像生成技术，则有 Stable Diffusion、FLUX、DALL-E 3 为代表的扩散模型。两条技术路线虽然各自取得突破，但长期独立演进，形成了截然不同的架构范式，这已是不争的事实。变革最早出现在 2025 年，GPT-4o 的统一多模态能力引爆了业界对统一架构的追求，即用一款模型既能理解图像内容，又能生成高质量图像。不过业界普遍推测，GPT-4o 的图像理解能力仍依赖视觉编码器提取图像特征，该模型本身并不原生生成高质量图像，而是依赖集成的 DALL-E 3。实现路径之所以关键，是因为它决定了模型的多模态能力是否真正实现了原生统一。以 GPT-4o 为代表的混合架构，虽然在物理上共享部分参数，但理解与生成在特征表示和计算路径上仍相对独立。这种不同模块接力完成任务的路径，不可避免地导致模型冗余、能力割裂和交互障碍。 ## 02 NEO-unify：真正靠同一个大脑做到这件事真正靠同一个大脑完成这件事，曾经是很多人的设想，今天被商汤实现。SenseNova U1 系列模型基于商汤今年 3 月自主研发的 NEO-unify 架构，率先在单一模型架构上统一多模态理解、推理与生成，实现了从「模态集成」向「原生统一」的范式跨越。 NEO-unify 架构的核心突破在哪里？它彻底摒弃了视觉编码器（VE）和变分自编码器（VAE），直接从像素和文本进行端到端学习。商汤在最新文章里打了个比方：传统架构像「说不同语言的人组成的工作组」，而 SenseNova U1 更像「一个从一开始就同时掌握多项技能的人」。这一设计的技术意义在于：VAE 的压缩过程本质上是有损的，开发者为此花了数年时间调参和打补丁；而 NEO-unify 直接在像素层面建模语言与视觉信息，像素与词语的信息从一开始就在同一个表征空间里共同参与每一层计算，消除了跨模块传递带来的信息损耗。 ![图注：该框架结合了（1）近无损视觉接口，（2）由两层卷积编码与类MLP编码层实现，以及（3）原生的混合Transformer（MoT）主干架构。架构重点在于同时解决三组矛盾：语义抽象与像素细节的共同表征、理解与生成的协同、语言因果性与图像空间一致性。](http://img.318050.com/uploads/20260531/17802184226a1bfa36653f8565530603.webp) 至此，端到端统一框架才算真正落地。一次图像生成的效果，乃至整个多模态模型的智能上限，都与这一里程碑的实现息息相关。本次开源的 SenseNova U1 Lite，包含两个不同规格的模型： * **SenseNova-U1-8B-MoT（稠密骨干网络）**：理解与生成两条分支参数约 9.37B / 8.19B * **SenseNova-U1-A3B-MoT（混合专家 MoE 骨干网络）**：理解分支约 30.54B，生成分支约 8.2B，每 token 激活 top-8 专家，实际活跃参数约 3B ## 03 模型测评：数据说话在商汤最新发布的 U1 技术报告中，有几组数据格外亮眼。在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，8B-MoT 均达到同量级开源模型 SOTA 水平，甚至在部分指标上超越了部分大型商业闭源模型。 ![图注：SenseNova-U1与其他顶级多模态理解模型在多模态基准测试（Benchmarks）上的对比。](http://img.318050.com/uploads/20260531/17802184226a1bfa36cab94068407519.webp) ![图注：SenseNova-U1与仅具备理解能力的顶级模型在纯文本基准测试（Benchmarks）上的对比](http://img.318050.com/uploads/20260531/17802184236a1bfa3725628242140537.webp) ![图注：GenEval 上的定量评估结果](http://img.318050.com/uploads/20260531/17802184236a1bfa3758a43460183586.webp) 从上表可以看出，SenseNova U1 实现了理解、生成、编辑、交错和智能体能力的一体融合，形成了相对均衡的能力谱系。关键数据上，GenEval 总分约 0.91-0.92，OneIG 中文文字渲染达 0.977，信息图生成领先多数开放模型，多模态理解 MMMU 达 80.55——这些数字发生在同一个模型内部，而不是多个专用模型的拼接。技术报告中一个值得单独提及的结论是：统一架构具备更高数据效率。NEO-unify 相比类似统一模型 BAGEL，在更少训练 token 下取得了更好表现。原因在于原生像素-文本接口减少了跨模块对齐成本，MoT 又让两类能力共享上下文、互相提供监督信号，训练数据利用率因此更高。在生成延迟与平均性能的综合对比中，SenseNova U1 Lite 在保证图像生成质量比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型闭源模型的同时，推理响应速度也展现出显著优势，尤其在复杂信息图（Infographic）生成任务中，控制力超出预期。更值得注意的是，作为最强开源生图模型的 SenseNova U1 Lite，仅仅只有 8B 的体量。光是这个数字本身，就意味着落地上的巨大潜力。 ## 04 实测与部署方案回到生产场景，SenseNova U1 对长文档和数据图表进行总结分析、生成高质量信息图表的能力，有着广阔的应用空间。我们也针对性地设计了一个任务，看看 SenseNova U1 在实际工作流中的表现。先让 U1 画一幅云南的水彩风景画，用连续图文创作输出的方式，展示从线稿到上色完稿的逐步过程。SenseNova U1 能够很好地理解要求，进行符合逻辑的连贯输出，并保持画面信息的一致性。 ![图注：让SenseNova U1画一幅云南水彩风景画，展示从线稿到上色完稿的逐步过程。](http://img.318050.com/uploads/20260531/17802184236a1bfa37eef8f584158605.webp) 同样是在生产场景，图文交错生成、带图思考背后的一致性也让 SenseNova U1 带来了更多可能性。在下面这个用例中，我们请它为一座建筑群设计了 7 步分镜，覆盖了从二维底图到带有好莱坞级 CG 效果的人视街景。 ![图注：SenseNova U1为一座建筑群设计的7步分镜，从二维底图到CG效果人视街景。](http://img.318050.com/uploads/20260531/17802184246a1bfa38cf88a242949917.webp) 信息图生成方面，我们先让 SenseNova U1 根据公开信息，做了一份 5 月院线电影观影指南。 ![图注：SenseNova U1生成的5月院线电影观影指南。](http://img.318050.com/uploads/20260531/17802184266a1bfa3a46169936343484.webp) 观影指南是一个关键信息高度密集的场景，每部电影的片名、日期、主题等标签都需要保证可读，在文字渲染准确性的难关之上，这又对 SenseNova U1 处理多对象结构化排版的能力提出了考验。此时文字的清晰呈现已经成为了最基本要求，更进一步的表现，是在高信息密度的约束下，仍然保持杂志级的排版审美。平面设计师的排版能力，与产品经理的信息架构能力，这二者的交叉点，恰恰是最容易暴露 AI 能力的短板。为了进一步测试 SenseNova U1 的结构化叙事和设计能力，我们又让它做了一份介绍《甄嬛传》中「滴血验亲」这场戏的信息图，并且把关键台词融入设计中。 ![图注：SenseNova U1制作的《甄嬛传》「滴血验亲」信息图。](http://img.318050.com/uploads/20260531/17802184266a1bfa3a90fb1227619980.webp) 两份信息图都没有拿模板套作的痕迹，每一页都做到了根据内容密度自适应，信息图表和数据可视化都有对应的视觉呈现，字体、颜色、元素比例在视觉效果上也很协调。这两项任务真正的难点有两个。首先是异构素材的知识合并能力，公开信息来源涵盖了文本、图像等多种格式，SenseNova U1 需要让重叠的知识点相互印证、合并，最终得到差异化的分层信息。没有真正的理解能力，做不到这一点。其次是逻辑感，提示词非常简练，SenseNova U1 却能自主对搜集的内容进行取舍，找到一条合理的叙述逻辑，这一点在总结「滴血验亲」剧情的用例中，体现得更为明显。见惯了汉字在 AI 图片里扭曲成麻花，SenseNova U1 在如此高密度的信息输出之下，准确率居然也已经达到了落地级别。手搓信息图乃至 PPT，或许很快就要成为一种正在消失的技能。 ## 05 ComfyUI 快速部署方案：5 分钟上手在 SenseNova U1 的最近一次更新中，商汤正式上线了 ComfyUI 部署支持，开发者可以将 U1 作为自定义节点直接嵌入 ComfyUI 工作流，实现从「提示词构建→图像生成→结果预览」的全链路可视化操作。值得一提的是，U1 在 ComfyUI 中提供了「带图思考」的交错生成节点，复杂逻辑的可视化推理过程一目了然。 ![图注：SenseNova U1在ComfyUI中的工作流界面。](http://img.318050.com/uploads/20260531/17802184276a1bfa3b01da2124283051.webp) ### 环境要求 * Python ≥ 3.10，ComfyUI 最新版 * GPU：推荐 16GB 显存（8B-MoT 标准版） * 低显存用户：8B-MoT-GGUF 版本可在 8GB 显存下运行；支持 layer-offload，进一步降低显存占用 ### 安装步骤 ``` # 1. 进入 ComfyUI 的 custom_nodes 目录 cd ComfyUI/custom_nodes # 2. 克隆最新仓库 git clone https://github.com/OpenSenseNova/SenseNova-U1 # 3. 安装依赖（推荐 uv） uv pip install -r requirements.txt # 4. 配置 API Key（本地推理可跳过此步） export SENSENOVA_API_KEY=your_key_here # 5. 启动 ComfyUI，拖入 workflow_demo.json 即可运行 ``` ### 核心节点说明 ![图注：SenseNova U1 ComfyUI核心节点图示。](http://img.318050.com/uploads/20260531/17802184276a1bfa3b37077660756659.webp) ### 加速与量化选项 * **8 步推理加速版（SenseNova-U1-8B-MoT-8step-preview）**：大多数场景下生成质量与基础模型接近，推理速度大幅提升 * **LoRA 微调版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）**：支持风格定制与场景适配 * **GGUF 量化版**：由社区贡献者提供，权重已发布于 HuggingFace，适合消费级 GPU 本地推理对于偏好免安装体验的用户，商汤还同步提供了办公小浣熊的体验方式，无需 GPU，直接在浏览器中即可试用 U1 的核心功能。 ## 06 生产级任务新选择过去一年，主流大模型厂商在多模态理解侧的表现已相对趋同，GPT-4V、Gemini Pro、Qwen-VL 等模型在图像理解、视频解析、文档理解等任务上的差距日益收窄。但生成侧始终是短板——理解一个数据集，然后生成信息图或制作一份 PPT，往往需要调用多个专用模型串联完成，不仅延迟高、风格一致性差，而且交付质量也参差不齐。 SenseNova U1 的差异化正在于此。把 SenseNova U1 放进多模态当前的竞争格局，你几乎无法找到同样的定位： * GPT 系列多模态理解能力一流，但原生图像生成仍然依赖独立模块，走专用模型协作的路子 * Qwen-VL 开源生态庞大，但生成以文本输出为主 * DeepSeek-V4 行业翘首以盼，但多模态生成亦不是其核心卖点此前头部玩家的核心能力多集中在理解侧，SenseNova U1 率先实现了生成和理解的原生融合。在端到端交付已经成为 Agent 落地共识的今天，只要理解与生成之间还横亘着跨模块的鸿沟，反映在落地上，就是交付质量和生产效率的真实痛点。SenseNova U1 一己之力，将这场拼交付的竞争，拉到了底层架构创新的高度。技术阶段的代差本身就意味着生产力。SenseNova U1 针对企业办公场景做了定向优化，将信息图、PPT、研究报告这类高频交付物作为重要战场，技术优势直接转化为了落地能力。由此，SenseNova U1 才能在已经是一片红海的生图市场占据一席之地，成为生产级任务的全新选择。 ## 07 结语 NEO-unify 的核心创新，就是让语言和视觉在同一个表征空间里共同参与每一层计算。此后模型在生成图像时，不是在翻译文字指令，而是在同一个思维框架之下，使语言与视觉信息能够作为一个统一的复合体被直接建模。统一架构会打破理解与生成之间的信息壁垒，消除模块边界本身带来的信息损耗。当理解和生成成为同一种认知能力的两面，协同效应就不再是设计的结果，而只是统一表征自然涌现的属性。这些革新共同支撑了应用层面的全新体验：统一架构首先意味着更强的复杂指令遵循能力，同时多轮交互中跨模态推理的可视化，也增强了输出的可解释性，对于抽象推理过程尤其如此。商汤还在技术报告中通过一系列消融实验，回答了一个核心问题：理解生成统一是否带来了真正的收益？实验结论明确：统一架构在表示、训练稳定性和数据效率上确实有收益，而不是一种折中。 * **原生像素-文本设计能同时保留语义和像素信息。** 实验验证了 encoder-free 架构不仅能学到理解所需的语义表示，也能支持像素级重建与编辑。即使冻结理解分支，生成路径仍能恢复细节并完成较好的图像编辑——说明理解端训练的内在表征并不只是「理解 token」，也具备生成所需的细粒度信息。 * **MoT 让理解与生成协同，而不是互相干扰。** 在联合 mid-training 和 SFT 阶段，即使生成数据和理解数据共同训练，理解能力仍保持稳定，生成能力还收敛更快。MoT 的参数解耦加共享注意力上下文，能有效降低理解/生成之间的内在冲突。 * **统一架构具备更高数据效率。** NEO-unify 相比类似统一模型 BAGEL，在更少训练 token 下取得更好表现。原因在于原生像素-文本接口减少了跨模块对齐成本，MoT 又让两类能力共享上下文、互相提供监督信号，训练数据利用率因此更高。单一模型替代专用模型协作的传统范式，能够显著降低存储、计算和部署成本，不过这还只是真原生架构革命性的一角。而更深远的意义在于，原生统一的多模态智能，仍然是一条被寄予厚望的 AGI 之路。多模态智能的未来突破，并不只是简单的规模扩大，更重要的是朝着深度融合进化的内核架构创新。今天底层范式和模型架构的创新正变得越来越珍贵。开原生统一架构之先河的 SenseNova U1，或许会有与其历史地位相匹配的表现——而这，才刚刚开始。 * SenseNova U1 项目地址：https://github.com/OpenSenseNova/SenseNova-U1/ * SenseNova-Skills 项目地址：https://github.com/OpenSenseNova/SenseNova-Skills

来源：互联网

上一篇 Zalman ZET7鼓型风冷再进化：260W TDP散热新标杆 下一篇 618暗战升级：低价之外的品质与服务比拼

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

商汤8B参数开源生图模型评测：去掉VAE后性能上限突破

摘要

相关文章推荐