MobileMoE实测:iPhone 16 Pro推理速度提升3.8倍
摘要
Meta提出MobileMoE,首次在商用手机实现高效MoE推理。其S M模型以稠密基线1 2到1 4计算量达成
端侧MoE突破:Meta MobileMoE首度落地商用手机,推理效率碾压稠密模型
混合专家模型(MoE)在云端大模型领域已不算新鲜事,但手机端的大语言模型至今仍以稠密架构为主——内存、算力与功耗的硬约束让子十亿参数级别的端侧MoE缺乏系统性探索。
移动设备DRAM容量提升后,局面开始扭转。Meta团队提出的MobileMoE,成为首个在商用智能手机上实现高效MoE推理的方案。成绩亮眼:14项基础测试中,MobileMoE-S/M在相近内存下,仅用稠密基线1/2到1/4的推理计算量,即达到持平甚至更高的平均准确率。实测显示,MobileMoE-S在iPhone 16 Pro的GPU/MLX后台上提速最显著,输入阶段最高达3.8倍。

论文链接:https://arxiv.org/abs/2605.27358
更关键的是,团队总结出一套端侧MoE缩放规律,用于指导手机部署的模型结构。最终,MobileMoE为端侧大语言模型建立了全新的帕累托前沿——在精度与推理计算开销的权衡上,交出了更优的答卷。

图|MobileMoE 为端侧大语言模型建立了新的帕累托前沿。
MobileMoE架构设计:四阶段训练与路由策略
简而言之,MobileMoE是一类专为端侧部署定制的MoE语言模型。整体采用decoder-only Transformer架构,但将稠密前馈层替换为MoE层。工作逻辑:路由器为每个token选出得分最高的少数专家参与计算,同时一个共享专家始终参与。训练流程分四步:预训练、中期训练、监督微调、量化感知训练。
预训练:团队在2048上下文长度下,使用约6T token的开放许可数据(以Web内容为主,覆盖数学、代码、知识、科学等领域)进行预训练。
中期训练:上下文扩展至8192,同时提升知识、代码、数学、科学等高质量数据占比,总规模约500B token。
监督微调(SFT):在超过8000万个样本的开放许可指令微调数据上,对MobileMoE-Base进行微调。
量化感知训练:将线性层与embedding量化到INT4,激活动态量化至INT8,router保留FP32精度。

图|MobileMoE 的四阶段训练。
实验结果
消融实验:专家数量、粒度与共享专家
团队首先对比三个架构变量:专家数量E、专家粒度g、是否加入共享专家。

图|专家数量 E 的缩放。
在固定内存预算下,内存高于约0.25GB时,MoE损失开始低于对应稠密模型。继续增加E,损失进一步下降,但E增至8后边际收益锐减。对专家粒度g的实验表明,细粒度配置整体更优,g=8在效果与训练开销间取得平衡;g从8增至16时,损失改善不足0.01,训练时长却增加约50%。相同计算预算下,加入共享专家后损失进一步降低。
基于消融结果,团队最终选用E=8、g=8、带共享专家的配置——即60个细粒度路由专家、Top-4路由和1个共享专家。该结构用于MobileMoE-S/M/L三个版本。

图|在计算最优条件下对 MoE 模型进行缩放。

图|MoE 架构的训练效率。
14项基础评测:端侧帕累托前沿确立
团队在常识推理、知识、科学、阅读、推理五类共14项基准中,将MobileMoE与Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B等模型统一设置重新评测。

图|MobileMoE 的预训练轨迹。
Base模型对比显示,MobileMoE-M平均分高于Qwen3.5 2B,MobileMoE-L高于OLMoE-1B-7B,且模型规模更小。团队还指出,MobileMoE-L的Base版本平均分已超过OLMoE-1B-7B的Instruct版本。训练规模上,MobileMoE使用约6T预训练token,远少于Llama 3.2 1B的9T和SmolLM2 1.7B的11T。指令微调模型整体对比中,MobileMoE-M平均准确率接近OLMoE-1B-7B,但活跃参数与总参数均减少约60%。

图|MobileMoE-Base 模型对比。
高级评测:代码与数学任务优势突出
在指令微调后的高级评测中,MobileMoE在代码与数学任务上表现更为强劲。以MobileMoE-L为例,其在代码和数学两类评测中的平均分均高于Qwen3.5 2B和OLMoE-1B-7B。但团队坦诚:在指令跟随与知识推理能力上,Qwen3.5 2B仍占优。

图|高级基准测试上的 Instruct 模型对比。
量化与端侧部署:INT4精度可控,手机实测显著提速
量化后,MobileMoE-S/M/L整体平均分较各自BF16版本下降约2-3分,但MobileMoE-L的INT4版本仍高于OLMoE-1B-7B Instruct的BF16版本。
团队将MobileMoE部署到Samsung Galaxy S25与iPhone 16 Pro进行实测。在可比INT4权重内存条件下,MobileMoE-S相比MobileLLM-Pro,输入阶段提速1.8-3.8倍,逐token生成阶段提速2.2-3.4倍。
内存占用方面,在Samsung Galaxy S25、8K上下文和真实prompt下,MobileMoE-S峰值RSS为1.49GB,低于MobileLLM-Pro的1.91GB。

图|端侧运行时延迟。
不足与未来方向
客观来看,MobileMoE尚非完美方案。在高级指令遵循以及知识与推理能力上,指令微调后的MobileMoE仍落后于Qwen3.5 2B。团队认为,差距可能与更完善的后训练有关。未来若缩小差距,训练侧需加强蒸馏、面向推理的后训练,并扩展多模态能力。
此外,MoE在手机上的内存占用随输入内容动态变化。相比固定模板输入,真实输入通常导致更高内存占用。仅依赖模板化输入测试,可能低估实际部署的内存压力。未来精准评估端侧MoE内存表现,需要基于更多真实实测数据。
同时,团队已在CPU和GPU后端完成系统性真机测试,但NPU路线尚待探索。值得警惕的是,MoE运行时内存对输入内容敏感。后续提升端侧效率的关键方向包括:动态路由、专家剪枝、混合精度量化以及移动端NPU部署。
更多技术细节,详见原论文。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。