Bonsai Image手机本地图像生成模型效果测评
摘要
这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技
这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技术突破在于:Bonsai Image 4B 是同参数级别中首个能直接运行于 iPhone 的图像生成模型。

其核心技术思路很直接:将 FLUX.2 Klein 4B 的扩散变换器(diffusion transformer)压缩为 1-bit / ternary 低比特权重,使其能在 iPhone 内存限制内高效运行。
上方展示的是 Ternary 版本的输出效果。而下面这张图,则来自 1-bit Bonsai Image 4B 的生成结果——Bonsai Image 4B 实际包含两个分支:

- 1-bit Bonsai Image 4B :权重取值仅为
{−1, +1},配合 FP16 group-wise scaling factor,官方标称有效精度约 1.125 bits/weight。专为极限内存压缩设计,适合对模型体积最敏感、内存压力最大的部署场景。 - Ternary Bonsai Image 4B :权重取值范围扩展至
{−1, 0, +1},同样搭配 FP16 group-wise scaling factor,有效精度约 1.71 bits/weight。引入 0 状态后,画质与 prompt 跟随性明显接近原模型。
| Model | Diffusion Transformer | Reduction vs FP16 |
|---|---|---|
| FLUX.2 Klein 4B | 7.75 GB | 1.0x |
| 1-bit Bonsai Image 4B | 0.93 GB | 8.3x |
| Ternary Bonsai Image 4B | 1.21 GB | 6.4x |
具体数据更具说服力:一个 4B 参数的图像 DiT,其 FP16 扩散变换器体积为 7.75GB,现在被压缩至 0.93GB / 1.21GB。需注意这里压缩的是 扩散变换器主体,并非完整 pipeline。官方数据显示,加上压缩后的 text encoder 和 FP16 VAE,Apple Silicon 部署的整体包体为 3.42GB / 3.88GB——而原始 full precision FLUX.2 Klein 4B 的完整 pipeline 高达 15.97GB。
官方 demo 将 512×512 设为默认快速预览尺寸,同时推荐 1024×1024、1248×832、832×1248、1408×704 等多种比例,唯一硬性要求是宽高必须为 32 的倍数:
目前官方提供了多条运行路径:
- Apple Silicon / iPhone / iPad / Mac :通过 MLX low-bit 路径,支持 Apple Silicon iPhone、iPad、Mac
- CUDA GPU :在 Linux / Windows NVIDIA GPU 上走 Gemlite low-bit GEMM + HQQ / Triton Windows,官方明确 Windows 可原生运行,无需 WSL2
- CLI / 本地 Web Studio / iOS App :GitHub demo 提供 CLI 生成,也可启动 FastAPI backend + Next.js frontend 本地 studio;App Store 已有 Bonsai Studio

PrismML 使用三项互补基准对 Bonsai Image 4B 进行了全面评估:
- GenEval :评估对象组成与属性绑定能力
- HPSv3 :衡量人类偏好与美学质量
- DPG-Bench :测试密集提示跟踪与语义忠实度

| Model | Diffusion Transformer Footprint (GB) | GenEval | HPSv3 | DPG-Bench | Size reduction relative to FLUX.2 Klein 4B | Performance relative to FLUX.2 Klein 4B |
|---|---|---|---|---|---|---|
| 1-bit Bonsai Image 4B | 0.93 | 0.671 | 11.15 | 0.822 | 8.3x | 88% |
| Ternary Bonsai Image 4B | 1.21 | 0.723 | 12.22 | 0.851 | 6.4x | 95% |
| FLUX.2 Klein 4B | 7.75 | 0.819 | 12.84 | 0.853 | 1x | 100% |
| SDXL | 5.14 | 0.3 | 10.05 | 0.74 | 1.5x | 67% |
| BK-SDM-Small | 0.98 | 0.297 | 3.05 | 0.559 | 7.9x | 42% |
| Stable Diffusion 1.5 | 1.72 | 0.396 | 4.2 | 0.601 | 4.5x | 51% |
| PixArt-Σ XL 2 | 1.2 | 0.541 | 11.93 | 0.769 | 6.4x | 83% |
基准测试结果一目了然:
- Ternary Bonsai Image 4B,体积 1.21 GB,在 GenEval、HPSv3 和 DPG-Bench 中保持了 FLUX.2 Klein 4B 95% 的推理精度,同时将扩散变换器体积压缩 6.4 倍。
- 1-bit Bonsai Image 4B,扩散变换器体积降至 1 GB 以下,压缩比达 8.3 倍,在三项评估中保留了 88% 的准确度。
需要强调的是,文生图是多步去噪过程,与文本 LLM 逐 token 生成截然不同。每一步都需要调用 transformer,因此 transformer 体积直接决定了内存占用、带宽压力与处理速度。Bonsai Image 4B 锁定并优化了扩散推理中执行最频繁的核心环节。
官方同时提供 MLX 版本、Gemlite 版本、unpacked 版本、demo repo 以及 iOS App——这不仅是模型层面的优化,更是模型 + kernel + deployment stack 的统一工程化方案。

最后看几组实际运行参考数据:
- 内存占用 :512×512 生成时,binary / ternary 版本的 mean-active memory 分别为 1.5GB / 1.96GB,而原始 FLUX.2 Klein 4B 需要 11.74GB;1024×1024 时,binary / ternary 为 1.95GB / 2.38GB,原始模型需 14.39GB。
- 速度 :iPhone 17 Pro Max 生成一张 512×512 图片约 9.4 秒;Mac M4 Pro 约 6 秒。
- 质量 :Ternary 版本在基准测试中逼近 FLUX.2 Klein 4B;1-bit 版本以 footprint 为优先,画质与 prompt 跟随性相对弱一些,细节保留能力有限。
Bonsai Image 4B 的核心价值,在于为“本地甚至手机端运行的 AI 画图模型”提供了两条实测可行的路径。1-bit 版本体积更小、资源更省;Ternary 版本更加稳健、画质更接近原版。两者均为 4B 参数级别,通过极低比特权重量化大幅压缩存储与内存需求。原本内存占用高压的 4B 图像 DiT 模型,如今借助 1-bit / Ternary 量化技术,成功落地到移动端,同时保留了绝大多数原模型的画质与语义理解能力。这才是它真正的差异化优势。
以下是本地实测生成的图片示例,效果可接受,速度满足日常使用,作为本地补充绘图工具足够可靠:



链接
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。