菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI创作与模型 > Bonsai Image手机本地图像生成模型效果测评
模型技术 图像生成

Bonsai Image手机本地图像生成模型效果测评

2026-06-02
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技

这些样张由名为 Ternary Bonsai Image 4B 的模型生成——全程在手机上完成推理。这款模型的技术突破在于:Bonsai Image 4B 是同参数级别中首个能直接运行于 iPhone 的图像生成模型

其核心技术思路很直接:将 FLUX.2 Klein 4B 的扩散变换器(diffusion transformer)压缩为 1-bit / ternary 低比特权重,使其能在 iPhone 内存限制内高效运行。

上方展示的是 Ternary 版本的输出效果。而下面这张图,则来自 1-bit Bonsai Image 4B 的生成结果——Bonsai Image 4B 实际包含两个分支:

  • 1-bit Bonsai Image 4B :权重取值仅为 {−1, +1},配合 FP16 group-wise scaling factor,官方标称有效精度约 1.125 bits/weight。专为极限内存压缩设计,适合对模型体积最敏感、内存压力最大的部署场景。
  • Ternary Bonsai Image 4B :权重取值范围扩展至 {−1, 0, +1},同样搭配 FP16 group-wise scaling factor,有效精度约 1.71 bits/weight。引入 0 状态后,画质与 prompt 跟随性明显接近原模型。
ModelDiffusion TransformerReduction vs FP16
FLUX.2 Klein 4B7.75 GB1.0x
1-bit Bonsai Image 4B0.93 GB8.3x
Ternary Bonsai Image 4B1.21 GB6.4x

具体数据更具说服力:一个 4B 参数的图像 DiT,其 FP16 扩散变换器体积为 7.75GB,现在被压缩至 0.93GB / 1.21GB。需注意这里压缩的是 扩散变换器主体,并非完整 pipeline。官方数据显示,加上压缩后的 text encoder 和 FP16 VAE,Apple Silicon 部署的整体包体为 3.42GB / 3.88GB——而原始 full precision FLUX.2 Klein 4B 的完整 pipeline 高达 15.97GB。

官方 demo 将 512×512 设为默认快速预览尺寸,同时推荐 1024×1024、1248×832、832×1248、1408×704 等多种比例,唯一硬性要求是宽高必须为 32 的倍数:

目前官方提供了多条运行路径:

  • Apple Silicon / iPhone / iPad / Mac :通过 MLX low-bit 路径,支持 Apple Silicon iPhone、iPad、Mac
  • CUDA GPU :在 Linux / Windows NVIDIA GPU 上走 Gemlite low-bit GEMM + HQQ / Triton Windows,官方明确 Windows 可原生运行,无需 WSL2
  • CLI / 本地 Web Studio / iOS App :GitHub demo 提供 CLI 生成,也可启动 FastAPI backend + Next.js frontend 本地 studio;App Store 已有 Bonsai Studio

PrismML 使用三项互补基准对 Bonsai Image 4B 进行了全面评估:

  • GenEval :评估对象组成与属性绑定能力
  • HPSv3 :衡量人类偏好与美学质量
  • DPG-Bench :测试密集提示跟踪与语义忠实度

ModelDiffusion Transformer Footprint (GB)GenEvalHPSv3DPG-BenchSize reduction relative to FLUX.2 Klein 4BPerformance relative to FLUX.2 Klein 4B
1-bit Bonsai Image 4B0.930.67111.150.8228.3x88%
Ternary Bonsai Image 4B1.210.72312.220.8516.4x95%
FLUX.2 Klein 4B7.750.81912.840.8531x100%
SDXL5.140.310.050.741.5x67%
BK-SDM-Small0.980.2973.050.5597.9x42%
Stable Diffusion 1.51.720.3964.20.6014.5x51%
PixArt-Σ XL 21.20.54111.930.7696.4x83%

基准测试结果一目了然:

  • Ternary Bonsai Image 4B,体积 1.21 GB,在 GenEval、HPSv3 和 DPG-Bench 中保持了 FLUX.2 Klein 4B 95% 的推理精度,同时将扩散变换器体积压缩 6.4 倍。
  • 1-bit Bonsai Image 4B,扩散变换器体积降至 1 GB 以下,压缩比达 8.3 倍,在三项评估中保留了 88% 的准确度。

需要强调的是,文生图是多步去噪过程,与文本 LLM 逐 token 生成截然不同。每一步都需要调用 transformer,因此 transformer 体积直接决定了内存占用、带宽压力与处理速度。Bonsai Image 4B 锁定并优化了扩散推理中执行最频繁的核心环节。

官方同时提供 MLX 版本、Gemlite 版本、unpacked 版本、demo repo 以及 iOS App——这不仅是模型层面的优化,更是模型 + kernel + deployment stack 的统一工程化方案。

最后看几组实际运行参考数据:

  • 内存占用 :512×512 生成时,binary / ternary 版本的 mean-active memory 分别为 1.5GB / 1.96GB,而原始 FLUX.2 Klein 4B 需要 11.74GB;1024×1024 时,binary / ternary 为 1.95GB / 2.38GB,原始模型需 14.39GB。
  • 速度 :iPhone 17 Pro Max 生成一张 512×512 图片约 9.4 秒;Mac M4 Pro 约 6 秒。
  • 质量 :Ternary 版本在基准测试中逼近 FLUX.2 Klein 4B;1-bit 版本以 footprint 为优先,画质与 prompt 跟随性相对弱一些,细节保留能力有限。

Bonsai Image 4B 的核心价值,在于为“本地甚至手机端运行的 AI 画图模型”提供了两条实测可行的路径。1-bit 版本体积更小、资源更省;Ternary 版本更加稳健、画质更接近原版。两者均为 4B 参数级别,通过极低比特权重量化大幅压缩存储与内存需求。原本内存占用高压的 4B 图像 DiT 模型,如今借助 1-bit / Ternary 量化技术,成功落地到移动端,同时保留了绝大多数原模型的画质与语义理解能力。这才是它真正的差异化优势。

以下是本地实测生成的图片示例,效果可接受,速度满足日常使用,作为本地补充绘图工具足够可靠:

链接

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多