多变量神经缩放定律大一统:Mila联手DeepMind提出UNSL
摘要
统一的神经缩放定律(UNSL)由Mila与DeepMind联合提出,能同时处理参数量、数据量、训练步
大模型规模化的研究,过去大家关注的是参数量、数据量和loss之间的简单关系——也就是经典的scaling law。但真到了训练环节,事情远没有这么直白。模型性能不止受参数量和数据量影响,训练步数、处理token数、数据重用次数、batch size、学习率、初始化尺度,甚至推理时的计算量,每一个变量都可能拖后腿。
更棘手的是,这些变量之间不是简单的加法关系。某个变量在特定区间可能成为瓶颈,也可能让性能曲线出现阶段性拐点,甚至带来非单调变化。比如训练数据太少,或者训练轮数超过某个阈值,过拟合就来了;学习率或初始化权重标准差太大,反过来也会损害性能。这些复杂情况,传统的缩放定律很难统一描述。

最近,来自蒙特利尔大学Mila和Google DeepMind的研究者提出了一种全新的函数形式,叫统一神经缩放定律(Unified Neural Scaling Law,简称UNSL)。它的核心主张很明确:神经网络的缩放行为不应该只用“参数量—数据量—loss”这样的二维或三维公式来刻画,而应该用一个能同时处理多变量、阶段性转折、性能瓶颈、过拟合和超参数反向作用的统一函数形式。
论文一作Ethan Caballero用一段视频展示了UNSL如何准确建模和外推人工神经网络在多个变量同时变化时的缩放行为。
UNSL的函数形式
UNSL的完整架构由多个分层函数嵌套而成。它在多维对数空间中将性能建模为一组平滑连接的超平面:

其中Q定义如下:

R定义如下:

K为多变量断裂神经缩放定律(Multivariate Broken Neural Scaling Law,MBNSL):

整体上可以这样理解:UNSL不是简单地把参数量、数据量和训练步数塞进一个幂律公式,而是采用了一套分层结构。底层的K是多变量broken scaling law,描述log-log空间中由多个平滑连接超平面构成的缩放曲面;其中的hyperbreak对应性能曲面中的阶段性转折。再往上一层,R将整体缩放行为拆成非瓶颈组件和瓶颈组件,分别描述多变量共同作用下的整体趋势,以及某一单独变量限制最终性能的情况。瓶颈组件意味着,当其他变量都足够好时,某一个变量仍可能成为短板——比如模型够大、训练够久,但数据量不足,数据量就是瓶颈;或者数据足够多,但模型太小,参数量就成了瓶颈。Q则进一步引入学习率、初始化尺度等超参数可能带来的反向作用。最外层公式再加入不可约性能极限、评价指标导致的坏表现极限,以及训练超过一定epoch后可能出现的过拟合项。
下图是UNSL的示意图,包含两个输入维度x₁和x₂;中间图和右侧图分别展示了它在各个输入维度上的投影。这个例子中,UNSL包含3个hyperbreak,也就是图中用更亮的虚线标出的橙色、黄色和绿色转折结构。Hyperbreak可以理解为缩放定律中的“阶段转折”——比如一开始增加数据带来明显收益,过了某个区间收益下降,这个转折就是一种break;多变量情况下,它不再是一个点,而是高维空间里的转折面。其中绿色hyperbreak由非瓶颈组件产生,橙色hyperbreak由x₁瓶颈组件产生,黄色hyperbreak由x₂瓶颈组件产生。

实验结果
实验部分,研究者对比了几类函数形式。第一类是已有的缩放定律形式,包括CF和DC。CF接近Kaplan、Chinchilla一类常见形式,主要描述参数量、训练数据量或训练token数与loss之间的关系。DC来自Muennighoff等人的三变量函数形式,考虑参数量、训练token数和训练数据集大小。第二类是作者设计的消融版本:A1、A2、A3,可以理解为UNSL的逐步简化版。A1去掉了additive symmetry,A2加入了性能下限项,A3进一步加入部分反向作用结构;完整UNSL包含全部additive symmetry、瓶颈组件、非瓶颈组件、过拟合项和超参数反向作用项。
研究者做了视觉和语言两大类实验。在视觉任务中,评估了下游少样本图像分类,包括Birds 200、Cars 196和ImageNet。模型包括ViT、MLP-Mixer和BiT,在JFT-300M子集上预训练。变量包括训练数据集大小、训练步数,以及三变量设置中的模型参数量。结果显示,在下游图像识别任务中,UNSL在60.87%的任务上取得最好的外推表现,下一个最好的A3是21.74%。
在语言任务中,评估了上游和下游语言表现,变量包括模型参数量、处理token数、训练数据token数等。下游任务包括LAMBADA和CSR(HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ等常识推理任务的零样本平均错误率)。结果显示,在语言任务中,UNSL在88.89%的任务上外推最好,下一个最好的A2是11.11%。

细化来看,视觉实验分为二变量和三变量两类。二变量设置中同时变化训练数据集大小和训练步数,三变量设置中同时变化训练数据集大小、训练步数和模型参数量。在三变量视觉实验中,UNSL的优势非常直接:以Birds和ImageNet为例,UNSL都取得最低RMSLE。尤其和DC相比,误差下降非常明显,说明只靠传统三变量形式不足以描述视觉模型在参数量、训练数据和训练步数同时变化时的外推趋势。

语言实验同时覆盖上游语言建模表现和下游任务表现。三变量语言实验使用Muennighoff等人的缩放行为数据,三个同时变化的维度是模型参数量、处理过的token数、训练数据集中的token数。二变量语言实验则关注模型参数量与训练步数/处理token数的关系。在三变量语言实验中,UNSL的RMSLE明显低于A3、A2、A1和DC——外推误差大约只有DC的八分之一左右。

二变量语言实验也体现了类似趋势。在下表5中,UNSL在大多数任务上取得最低误差。

除了主文中的视觉和语言任务,论文附录还给出了更多场景,试图说明UNSL的适用范围更广。它可以外推强化学习中的多变量缩放行为,可以处理宽度和深度同时变化的缩放,还可以把batch size作为输入变量;另外,UNSL还被用于学习率、初始化权重标准差和训练步数同时变化的三变量缩放行为。
这一系列实验结果表明,UNSL的优势不在于简单拟合历史数据,而在于它能在多变量同时变化的情况下,更稳定地预测模型性能随规模扩展的走势。

来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。