产业资讯综合资讯

MobileMoE实测：iPhone 16 Pro推理速度提升3.8倍

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Meta提出MobileMoE，首次在商用手机实现高效MoE推理。其S M模型以稠密基线1 2到1 4计算量达成

端侧MoE突破：Meta MobileMoE首度落地商用手机，推理效率碾压稠密模型

混合专家模型（MoE）在云端大模型领域已不算新鲜事，但手机端的大语言模型至今仍以稠密架构为主——内存、算力与功耗的硬约束让子十亿参数级别的端侧MoE缺乏系统性探索。

移动设备DRAM容量提升后，局面开始扭转。Meta团队提出的MobileMoE，成为首个在商用智能手机上实现高效MoE推理的方案。成绩亮眼：14项基础测试中，MobileMoE-S/M在相近内存下，仅用稠密基线1/2到1/4的推理计算量，即达到持平甚至更高的平均准确率。实测显示，MobileMoE-S在iPhone 16 Pro的GPU/MLX后台上提速最显著，输入阶段最高达3.8倍。

论文链接：https://arxiv.org/abs/2605.27358

更关键的是，团队总结出一套端侧MoE缩放规律，用于指导手机部署的模型结构。最终，MobileMoE为端侧大语言模型建立了全新的帕累托前沿——在精度与推理计算开销的权衡上，交出了更优的答卷。

图｜MobileMoE 为端侧大语言模型建立了新的帕累托前沿。

MobileMoE架构设计：四阶段训练与路由策略

简而言之，MobileMoE是一类专为端侧部署定制的MoE语言模型。整体采用decoder-only Transformer架构，但将稠密前馈层替换为MoE层。工作逻辑：路由器为每个token选出得分最高的少数专家参与计算，同时一个共享专家始终参与。训练流程分四步：预训练、中期训练、监督微调、量化感知训练。

预训练：团队在2048上下文长度下，使用约6T token的开放许可数据（以Web内容为主，覆盖数学、代码、知识、科学等领域）进行预训练。

中期训练：上下文扩展至8192，同时提升知识、代码、数学、科学等高质量数据占比，总规模约500B token。

监督微调（SFT）：在超过8000万个样本的开放许可指令微调数据上，对MobileMoE-Base进行微调。

量化感知训练：将线性层与embedding量化到INT4，激活动态量化至INT8，router保留FP32精度。

图｜MobileMoE 的四阶段训练。

实验结果

消融实验：专家数量、粒度与共享专家

团队首先对比三个架构变量：专家数量E、专家粒度g、是否加入共享专家。

图｜专家数量 E 的缩放。

在固定内存预算下，内存高于约0.25GB时，MoE损失开始低于对应稠密模型。继续增加E，损失进一步下降，但E增至8后边际收益锐减。对专家粒度g的实验表明，细粒度配置整体更优，g=8在效果与训练开销间取得平衡；g从8增至16时，损失改善不足0.01，训练时长却增加约50%。相同计算预算下，加入共享专家后损失进一步降低。

基于消融结果，团队最终选用E=8、g=8、带共享专家的配置——即60个细粒度路由专家、Top-4路由和1个共享专家。该结构用于MobileMoE-S/M/L三个版本。

图｜在计算最优条件下对 MoE 模型进行缩放。

图｜MoE 架构的训练效率。

14项基础评测：端侧帕累托前沿确立

团队在常识推理、知识、科学、阅读、推理五类共14项基准中，将MobileMoE与Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B等模型统一设置重新评测。

图｜MobileMoE 的预训练轨迹。

Base模型对比显示，MobileMoE-M平均分高于Qwen3.5 2B，MobileMoE-L高于OLMoE-1B-7B，且模型规模更小。团队还指出，MobileMoE-L的Base版本平均分已超过OLMoE-1B-7B的Instruct版本。训练规模上，MobileMoE使用约6T预训练token，远少于Llama 3.2 1B的9T和SmolLM2 1.7B的11T。指令微调模型整体对比中，MobileMoE-M平均准确率接近OLMoE-1B-7B，但活跃参数与总参数均减少约60%。

图｜MobileMoE-Base 模型对比。

高级评测：代码与数学任务优势突出

在指令微调后的高级评测中，MobileMoE在代码与数学任务上表现更为强劲。以MobileMoE-L为例，其在代码和数学两类评测中的平均分均高于Qwen3.5 2B和OLMoE-1B-7B。但团队坦诚：在指令跟随与知识推理能力上，Qwen3.5 2B仍占优。

图｜高级基准测试上的 Instruct 模型对比。

量化与端侧部署：INT4精度可控，手机实测显著提速

量化后，MobileMoE-S/M/L整体平均分较各自BF16版本下降约2-3分，但MobileMoE-L的INT4版本仍高于OLMoE-1B-7B Instruct的BF16版本。

团队将MobileMoE部署到Samsung Galaxy S25与iPhone 16 Pro进行实测。在可比INT4权重内存条件下，MobileMoE-S相比MobileLLM-Pro，输入阶段提速1.8-3.8倍，逐token生成阶段提速2.2-3.4倍。

内存占用方面，在Samsung Galaxy S25、8K上下文和真实prompt下，MobileMoE-S峰值RSS为1.49GB，低于MobileLLM-Pro的1.91GB。

图｜端侧运行时延迟。

不足与未来方向

客观来看，MobileMoE尚非完美方案。在高级指令遵循以及知识与推理能力上，指令微调后的MobileMoE仍落后于Qwen3.5 2B。团队认为，差距可能与更完善的后训练有关。未来若缩小差距，训练侧需加强蒸馏、面向推理的后训练，并扩展多模态能力。

此外，MoE在手机上的内存占用随输入内容动态变化。相比固定模板输入，真实输入通常导致更高内存占用。仅依赖模板化输入测试，可能低估实际部署的内存压力。未来精准评估端侧MoE内存表现，需要基于更多真实实测数据。

同时，团队已在CPU和GPU后端完成系统性真机测试，但NPU路线尚待探索。值得警惕的是，MoE运行时内存对输入内容敏感。后续提升端侧效率的关键方向包括：动态路由、专家剪枝、混合精度量化以及移动端NPU部署。

更多技术细节，详见原论文。

来源：互联网

上一篇 Alphabet计划募资800亿美元，加速全球AI基础设施建设 下一篇 黑客利用谷歌广告精准钓鱼ChatGPT与Claude共享功能

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。