清华DECO架构评测:如何让手机大模型又快又聪明?
摘要
2026年5月,清华大学计算机科学与技术系与人工智能研究院联合发布预印本研究(arXiv:2605 10
2026年5月,清华大学计算机科学与技术系与人工智能研究院联合发布预印本研究(arXiv:2605.10933),直面AI大模型在边缘设备部署的核心挑战:如何在手机、平板等有限算力与存储环境中实现高效推理?

与手机AI助手交互时,其背后支撑的模型参数量常达数百亿甚至千亿级别。这好比一座知识浩瀚的超级图书馆:规模越大,能力越强,但运转成本也越高。边缘设备作为AI落地的“最后一公里”,缺乏数据中心级的算力与存储,却承载着让AI无缝融入日常场景的期望。
研究者长期寻求一种平衡:模型既要保持高智能,又需在计算与存储上足够轻量。清华大学团队提出的DECO(DEnse COmparable Sparse MoE)架构,正是针对这一目标设计。它试图在参数总量与训练数据量完全相同的严格前提下,验证稀疏激活的混合专家模型能否达到传统密集模型的性能水平。
实验给出了肯定答案。
一、边缘设备的“不可能三角”及其破解难点
以图书馆作类比。传统密集模型如同每次查询都需翻遍馆内所有藏书,无论问题涉及烹饪还是天体物理。这种方式确保了知识调用的完整性,但计算开销巨大,尤其当模型规模膨胀时,成本难以承受。
混合专家模型应运而生。它将图书馆划分为多个专题区域,每次查询仅调动相关领域的书籍,其他区域保持静默。这正是“稀疏激活”的核心思路,能大幅削减计算量。
然而,该方案在边缘设备上遭遇新瓶颈。虽然每次仅动用小部分藏书,但整座图书馆——即全部模型参数——仍需完整载入设备内存。这意味着MoE模型的总参数量往往是密集模型的数倍乃至数十倍。对于内存紧张的手机或边缘服务器,仅参数加载就已捉襟见肘,更遑论数据频繁搬运带来的延迟。
由此形成三角困境:高性能、低计算量、小存储占用,三者难以兼得。密集模型性能强但计算量大;大规模MoE计算量小但存储占用大;经压缩的模型存储小了,性能又难以保障。DECO的目标极为明确:在参数总量与密集模型完全一致的前提下,通过稀疏激活实现同等甚至更优的性能——相当于在不扩建图书馆的前提下,通过更高效的运营体系,达到相同的服务水准。
这一设定的严苛性在于,它摒弃了以往研究中的潜在优势。过去许多宣称MoE超越密集模型的工作,往往允许MoE使用更多训练数据。而DECO要求训练数据量也完全一致,将竞争置于绝对公平的起跑线。
二、DECO架构核心:一座更高效的分工图书馆
DECO的架构革新聚焦三个层面:路由器设计、专家模块优化,以及对稀疏度的精准控制。
路由器:从“固定分配”到“动态感知”
传统MoE常采用TopK路由,如同一个刻板的前台:无论问题复杂度如何,固定指派K个专家专区。简单问题可能只需咨询一位专家,复杂问题或许需要四到五位,这种“一刀切”方式效率低下。更重要的是,此类路由决策在训练中“不可微分”,模型无法通过常规反向传播优化它。
DECO采用了基于ReLU的路由机制。ReLU函数如同一个“仅允许正信号通过”的过滤器:若对某专家的评分为正,则激活它;若为负数或零,则完全忽略。由此,每个输入激活的专家数量完全动态,由问题本身的复杂度决定。同时,ReLU是可微分的,路由决策得以随训练持续优化。
在此基础上,DECO引入另一项创新:可学习的专家级缩放因子。在DECO架构中,除按需调用的路由专家外,还存在一个无论何种问题都会参与的“共享专家”。挑战在于,这位“全能员工”与各位“专才”的输出规模可能差异显著,直接混合会导致失衡。DECO的解决方案是为每位路由专家配备一个独立的、可在训练中自动调整的缩放系数,相当于赋予每位专家一个专属的“音量旋钮”。实验数据证实,不同专家的输出强度差异悬殊,这种个性化调节机制至关重要,其效果优于固定的或全局统一的缩放方案。
专家设计:稳定专家的“工作模式”
如果说路由器决定“找谁”,专家模块则决定“如何工作”。DECO在此做了两项关键改进。
首先是引入NormSiLU激活函数。传统MoE常用SwiGLU,但在与ReLU路由配合时,研究团队发现两个棘手问题:一是训练初期激活的专家比例会失控飙升,远超预设目标;二是即使专家被激活,其输出幅度也会逐渐衰减至接近零,导致“出工不出力”。
NormSiLU通过在SiLU激活函数前增加两步归一化处理来解决这些问题。第一步是“专家间均值归一化”,确保所有专家的信号围绕零点分布,防止输出消失;第二步是“专家内RMS归一化”,稳定激活值的尺度,避免激活比例失控。实验表明,这两步缺一不可,完整的NormSiLU在稳定性和性能上均表现最佳。巧妙的是,在推理阶段,第一步归一化可提前计算并存储,几乎不增加额外开销。
第二项改进是选择“非门控MLP专家”。在深度学习领域,包含复杂乘法交互的“门控MLP”(如SwiGLU)通常被认为性能更优。但DECO团队发现,在ReLU路由的语境下,情况恰恰相反。门控结构产生的剧烈梯度变化会与路由决策强烈耦合,导致激活比例极不稳定,训练过程震荡剧烈。而非门控MLP专家的训练曲线则平稳得多。实验结果清晰显示,在使用ReLU路由时,非门控版本的性能显著优于门控版本。有趣的是,对于使用固定TopK路由的模型(如DeepSeek-V3),两者差异微乎其微。这说明,最佳专家结构的选择,高度依赖于路由机制。
三、精准的“稀疏度控制”:寻找最优平衡点
将激活比例稳定控制在目标值(例如20%)附近,并非易事。DECO设计了一套自适应稀疏度正则化机制来实现精准调控。
正则化本质上是一种“惩罚”机制。DECO使用“路由器熵”作为惩罚指标,它衡量路由决策的分散程度。激活专家越多,熵值越高。通过对高熵施加惩罚,模型被鼓励走向更稀疏的激活状态。
创新的关键在于,惩罚力度是动态、自动调整的。规则直观:若当前激活比例高于目标,则小幅增强惩罚;若低于目标,则小幅减弱惩罚。此过程在每次训练迭代后自动执行,如同一个恒温器,持续将激活比例调节至目标值附近,无需人工干预,也避免了因惩罚过强或过弱导致的问题。
四、实验结果:DECO的性能表现
研究团队在四个参数规模(Small约1.1亿,Medium约2.4亿,Large约5.3亿,XLarge约11.8亿)上进行了系统测试,对比对象包括标准密集Transformer、TopP路由MoE、DeepSeek-V3风格MoE等多种基准模型。所有对比均在参数总量和训练数据量完全相同的公平条件下进行。
评估涵盖语言建模能力(困惑度,PPL)和常识推理能力(七项基准测试平均准确率)。结果显示,在所有四个规模上,DECO的困惑度均低于或接近密集模型,任务准确率也达到或超越密集模型。以Medium规模为例,DECO在两项指标上均略胜密集模型。更重要的是,在仅激活约20%参数的情况下,DECO全面超越了其他使用相同激活比例和参数总量的MoE基准模型。
研究还探索了关键超参数的影响:
- 激活比例:性能随比例提高单调上升,但不同规模模型达到与密集模型相当性能所需的“门槛”比例不同。Small模型约需15%,Medium模型仅需约10%。这暗示随着模型规模扩大,所需激活比例可能进一步降低。
- 共享专家大小:当其规模是路由专家的1到2倍时性能最佳。过大(如3到4倍)反而会因挤占路由专家数量、降低多样性而导致性能下降。
- 专家粒度:更细的粒度(专家更小、总数更多)通常带来更好性能,在中大规模模型上趋势更明显。
五、将稀疏性转化为实际速度:硬件加速实验
理论优势能否转化为实际速度?研究团队为DECO开发了定制推理加速内核,并在两款设备上测试:桌面级显卡RTX 4090和边缘设备Jetson AGX。
结果令人振奋。在RTX 4090上,优化后的DECO解码速度达到每秒224.63个token,是未优化基准速度的2.58倍。在更贴近边缘场景的Jetson AGX上,加速效果更为显著:速度从基准的14.77 token/秒提升至44.32 token/秒,加速比达到约3倍。这证明DECO不仅在理论上节省计算,更能切实提升边缘设备的推理速度。
六、MoE理论可比性:一个启发性视角
研究团队在讨论部分提出了一个颇具启发性的观点。传统认为密集模型“充分”利用了所有参数,但近期多项研究(包括该团队早期工作)发现,对于使用SwiGLU的标准密集模型,每次处理输入时,真正做出显著贡献的神经元仅占30%到40%,其余大部分神经元激活值接近零,处于“待机”状态。
从这个角度看,密集模型本身已是一种隐式的稀疏MoE。既然它实际工作的参数也只有一小部分,那么一个精心设计、能精准激活同等比例参数的显式稀疏MoE,理论上完全有潜力用相同的参数总量实现相同的功能。DECO正是朝着“精准激活”这个目标迈进。
另一发现是,DECO的“密集可比性”对训练数据的多样性有一定依赖。在使用混合多样数据集时,DECO在各个规模上都能达到或超越密集模型;而在相对单一的网页文本数据集上,小规模DECO的困惑度会略逊于密集模型(尽管任务准确率仍持平)。这似乎说明,多样化的数据更能发挥稀疏MoE“按域分工”的优势。
DECO的贡献可概括为:在不增加参数总量的前提下,通过更智能的模型架构设计,使其效率与质量追上了需要全参数参与的传统密集模式。
这项研究最直接的意义在于,它让未来手机上的AI助手,在无需庞大存储空间的前提下,具备与当今强大云端模型相媲美的理解能力,同时响应速度还能提升数倍,这并非遥不可及。研究团队表示已在开发产品级的边缘端DECO模型,并探索其在监督微调等后续阶段的适配方案。
当然,一些开放问题依然值得关注:当模型规模扩展到百亿甚至千亿参数时,DECO实现可比性所需的最低激活比例会降至多少?在不同语言和领域的数据分布下,其优势是否依然稳健?这些问题的答案,或许将在不远将来揭晓。
Q&A
Q1:DECO和普通MoE模型有什么区别,为什么说DECO更适合手机等边缘设备?
A:普通MoE模型虽然每次计算只激活部分参数,但其总参数量通常是密集模型的好几倍,手机有限的存储空间难以承载。DECO的特殊之处在于,它在参数总量与密集模型完全相同的条件下实现稀疏激活,因此不额外增加存储负担。同时,其配套的硬件加速内核在Jetson AGX这类边缘设备上实现了约3倍的推理加速,真正做到了存储、速度与性能的平衡。
Q2:NormSiLU是什么,为什么普通SiLU激活函数在DECO里不够用?
A:NormSiLU是DECO为专家模块设计的增强型激活函数,在标准SiLU前增加了两步归一化处理。普通SiLU与ReLU路由配合时会出现两个问题:一是训练初期激活专家比例容易失控飙升,需要强惩罚来压制,而这会损害模型学习能力;二是专家输出幅度会衰减至接近零,导致即使被激活也无实质贡献。NormSiLU通过两步归一化同时解决了稳定性和有效性问题。
Q3:DECO的激活比例控制是如何自动工作的,不需要人工一直调整吗?
A:是的,DECO采用了一套自适应稀疏度正则化机制,完全自动化运行。系统持续监控实际激活比例,若高于目标值(如20%),则自动小幅增强惩罚力度;若低于目标,则自动减弱。这个过程在每次训练迭代后自动执行,确保激活比例在整个训练过程中自动收敛并稳定在目标值附近,无需人工干预调参。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。