模型技术图像生成

Bonsai Image手机本地图像生成模型效果测评

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技

这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技术突破在于：Bonsai Image 4B 是同参数级别中首个能直接运行于 iPhone 的图像生成模型。

其核心技术思路很直接：将 FLUX.2 Klein 4B 的扩散变换器（diffusion transformer）压缩为 1-bit / ternary 低比特权重，使其能在 iPhone 内存限制内高效运行。

上方展示的是 Ternary 版本的输出效果。而下面这张图，则来自 1-bit Bonsai Image 4B 的生成结果——Bonsai Image 4B 实际包含两个分支：

1-bit Bonsai Image 4B ：权重取值仅为 {−1, +1}，配合 FP16 group-wise scaling factor，官方标称有效精度约 1.125 bits/weight。专为极限内存压缩设计，适合对模型体积最敏感、内存压力最大的部署场景。
Ternary Bonsai Image 4B ：权重取值范围扩展至 {−1, 0, +1}，同样搭配 FP16 group-wise scaling factor，有效精度约 1.71 bits/weight。引入 0 状态后，画质与 prompt 跟随性明显接近原模型。

Model	Diffusion Transformer	Reduction vs FP16
FLUX.2 Klein 4B	7.75 GB	1.0x
1-bit Bonsai Image 4B	0.93 GB	8.3x
Ternary Bonsai Image 4B	1.21 GB	6.4x

具体数据更具说服力：一个 4B 参数的图像 DiT，其 FP16 扩散变换器体积为 7.75GB，现在被压缩至 0.93GB / 1.21GB。需注意这里压缩的是 扩散变换器主体，并非完整 pipeline。官方数据显示，加上压缩后的 text encoder 和 FP16 VAE，Apple Silicon 部署的整体包体为 3.42GB / 3.88GB——而原始 full precision FLUX.2 Klein 4B 的完整 pipeline 高达 15.97GB。

官方 demo 将 512×512 设为默认快速预览尺寸，同时推荐 1024×1024、1248×832、832×1248、1408×704 等多种比例，唯一硬性要求是宽高必须为 32 的倍数：

目前官方提供了多条运行路径：

Apple Silicon / iPhone / iPad / Mac ：通过 MLX low-bit 路径，支持 Apple Silicon iPhone、iPad、Mac
CUDA GPU ：在 Linux / Windows NVIDIA GPU 上走 Gemlite low-bit GEMM + HQQ / Triton Windows，官方明确 Windows 可原生运行，无需 WSL2
CLI / 本地 Web Studio / iOS App ：GitHub demo 提供 CLI 生成，也可启动 FastAPI backend + Next.js frontend 本地 studio；App Store 已有 Bonsai Studio

PrismML 使用三项互补基准对 Bonsai Image 4B 进行了全面评估：

GenEval ：评估对象组成与属性绑定能力
HPSv3 ：衡量人类偏好与美学质量
DPG-Bench ：测试密集提示跟踪与语义忠实度

Model	Diffusion Transformer Footprint (GB)	GenEval	HPSv3	DPG-Bench	Size reduction relative to FLUX.2 Klein 4B	Performance relative to FLUX.2 Klein 4B
1-bit Bonsai Image 4B	0.93	0.671	11.15	0.822	8.3x	88%
Ternary Bonsai Image 4B	1.21	0.723	12.22	0.851	6.4x	95%
FLUX.2 Klein 4B	7.75	0.819	12.84	0.853	1x	100%
SDXL	5.14	0.3	10.05	0.74	1.5x	67%
BK-SDM-Small	0.98	0.297	3.05	0.559	7.9x	42%
Stable Diffusion 1.5	1.72	0.396	4.2	0.601	4.5x	51%
PixArt-Σ XL 2	1.2	0.541	11.93	0.769	6.4x	83%

基准测试结果一目了然：

Ternary Bonsai Image 4B，体积 1.21 GB，在 GenEval、HPSv3 和 DPG-Bench 中保持了 FLUX.2 Klein 4B 95% 的推理精度，同时将扩散变换器体积压缩 6.4 倍。
1-bit Bonsai Image 4B，扩散变换器体积降至 1 GB 以下，压缩比达 8.3 倍，在三项评估中保留了 88% 的准确度。

需要强调的是，文生图是多步去噪过程，与文本 LLM 逐 token 生成截然不同。每一步都需要调用 transformer，因此 transformer 体积直接决定了内存占用、带宽压力与处理速度。Bonsai Image 4B 锁定并优化了扩散推理中执行最频繁的核心环节。

官方同时提供 MLX 版本、Gemlite 版本、unpacked 版本、demo repo 以及 iOS App——这不仅是模型层面的优化，更是模型 + kernel + deployment stack 的统一工程化方案。

最后看几组实际运行参考数据：

内存占用 ：512×512 生成时，binary / ternary 版本的 mean-active memory 分别为 1.5GB / 1.96GB，而原始 FLUX.2 Klein 4B 需要 11.74GB；1024×1024 时，binary / ternary 为 1.95GB / 2.38GB，原始模型需 14.39GB。
速度：iPhone 17 Pro Max 生成一张 512×512 图片约 9.4 秒；Mac M4 Pro 约 6 秒。
质量：Ternary 版本在基准测试中逼近 FLUX.2 Klein 4B；1-bit 版本以 footprint 为优先，画质与 prompt 跟随性相对弱一些，细节保留能力有限。

Bonsai Image 4B 的核心价值，在于为“本地甚至手机端运行的 AI 画图模型”提供了两条实测可行的路径。1-bit 版本体积更小、资源更省；Ternary 版本更加稳健、画质更接近原版。两者均为 4B 参数级别，通过极低比特权重量化大幅压缩存储与内存需求。原本内存占用高压的 4B 图像 DiT 模型，如今借助 1-bit / Ternary 量化技术，成功落地到移动端，同时保留了绝大多数原模型的画质与语义理解能力。这才是它真正的差异化优势。

以下是本地实测生成的图片示例，效果可接受，速度满足日常使用，作为本地补充绘图工具足够可靠：

链接

来源：互联网

上一篇 运行时工程决定Agent未来：BoxAgnts深度解析 下一篇 Codex与AGENTS.md：2000行提示工程最佳实践

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Bonsai Image手机本地图像生成模型效果测评

摘要

链接

相关文章推荐