CVPR 2026论文解读:东南大学耿新团队揭秘模型能力被挤掉深层机制
摘要
你可能碰到过这种情况:模型单任务时表现很好,但加入新任务后性能开始下滑。不是完全
你可能碰到过这种情况:模型单任务时表现很好,但加入新任务后性能开始下滑。不是完全失效,而是变得不稳定——部分能力退化,结果波动。问题不在于模型学不会,而在于后续任务“挤占”了它原本已经掌握的知识。
这背后有个经常被忽略的深层问题。模型的能力并非按任务独立存储,而是共享同一套内部表示空间。简单说,所有任务都在“同一块区域”里存放信息。
任务增多时,它们不会并排安放,而是争夺这块空间中最关键的坐标位置。谁抢占得多,谁就更稳定;谁被排挤,谁的性能就下降。这就是多任务融合往往“越多越乱”的根本原因。
现实中这类问题相当普遍。一个持续迭代的系统,每次添加新能力,表面上只是“多做了件事”,实际上是在重新分配内部表示空间。没有合理机制,新增能力会持续干扰旧能力,最终系统变成一个需要不断修补的状态,而非自然扩展。
针对这个痛点,东南大学耿新团队在论文《Model Merging in the Essential Subspace》中提出了新思路。他们没有继续做更复杂的参数融合,而是换了一个更本质的问题来思考:模型里的“关键信息究竟分布在哪里”。
近年来,耿新团队提出的“学习基因”思想(即跨任务共享核心模型参数)为此提供了新解法。研究团队发现,模型的有效能力并非均匀分布在所有参数中,而是集中在少数几个关键方向上——这些方向才是真正决定任务性能的部分。
这样一来,问题就明朗了。多任务融合失败,不是因为参数没合好,而是因为这些关键方向彼此重叠和冲突。于是,这项研究把问题拆成两步:第一步,尽可能把不同任务的关键方向分开,避免互相挤占;第二步,保留更重要的信息,压制不重要的部分。这样,不同任务就可能在同一个模型里稳定共存。
从这个角度看,这篇工作改变的不仅是方法本身,更是看问题的视角。它将模型融合从简单的参数操作,升级为关于信息如何分配、如何共存的问题,也让多任务系统不再只是叠加能力,而是开始有可能真正“生长”出新能力,且互不干扰。

模型融合失败,根源在于子空间冲突
从实验结果来看,研究团队真正想说明的,不是某个特定设置下的偶然提升,而是随着多任务融合难度递增,ESM (Essential Subspace Merging)仍然能维持更稳定的性能。
传统方法在任务数量增加时,往往出现明显的性能滑坡。任务越多,任务间的相互干扰越强,融合效果快速下降。相比之下,ESM 的表现更稳健。在其他基线性能损耗通常达到 8% 到 9% 时,ESM 的损耗幅度明显更小,整体损耗率比基线低了约 20%。这说明 ESM 能更有效地抵抗多任务增加带来的相互干扰,保住更多原本属于各个任务的有效知识。
结合模型规模来看,研究结果还能揭示另一点。在更大的模型上,各种方法本来就能达到 90 以上,ESM 相比现有强方法的提升会缩小到大约 0.3 到 0.5。
这并不表示 ESM 作用减弱,反而说明大模型本身具有更强的表示容量和更自然的子空间分离能力。因此,ESM 的核心价值,就是人为构造一种更清晰的子空间解耦机制,而这种机制在模型容量有限时尤为关键。

研究还给出了一个关键的上限与下限参照。未微调模型的性能大约在 50% 到 65% 之间,单任务微调后的专家模型大约在 90% 以上,而 ESM 能达到 81% 到 91%。
这说明 ESM 已经不只是比基线略好一点,而是在明显逼近多任务融合的理想上限。换句话说,ESM 已相当接近“多个任务合并后仍尽力保持单任务性能”这一目标。
为了解释为什么会更好,研究人员又做了消融实验。仅将分解方式从 SVD 换成 ESD,性能就从 89.0 提升到 90.9,增幅达到 1.9,这说明问题的关键在于子空间选择。
之后再加入 Polarized Scaling,性能又从 90.9 提升到 91.8,再提高 0.9。这表明 ESD 主要解决信息丢失问题,而 Polarized Scaling 主要解决信息竞争问题。也就是说,整个方法的有效性,在于它同时处理了“保留什么信息”和“如何让这些信息共存”这两个核心问题。

进一步分析内部机制,研究发现 ESD 在仅保留较少成分时,仍然能留下更多有效信息,而传统的 SVD 需要保留更多维度才能达到相近效果。这说明 ESD 找到的是更集中、更高效的信息表示。真正关键的任务知识并非均匀分布在所有方向上,而是集中在少数功能性更强的方向里。
研究还发现,即使只保留 5% 的成分,ESD 得到的融合模型与原专家模型之间仍然有更高的特征一致性。这说明 ESD 保留下来的不是表面的参数结构,而是更接近任务语义和模型行为本身的核心信息。

在数据依赖性上,研究团队也给出了很强的证据。无论使用正常采样的数据、只包含单一类别的偏置数据,还是完全无关的外部分布数据,结果几乎都没有明显差异。
同时,只用 1 个样本时效果就超过了 baseline,只用 4 个样本时就已经接近最优,增加到 32 个样本后基本收敛。这说明任务子空间本身是一种低维结构,不需要大量数据去估计。模型内部其实已经编码了稳定的任务响应模式。
最后,关于 Polarized Scaling,研究表明单独放大强信号可以提升性能,单独抑制弱噪声也可以提升性能,而两者结合时效果最好。这说明多任务融合本质上不是简单的参数平均,而更像一个信号筛选与重加权过程。

在模型内部重建知识边界
实验中,研究团队系统控制了三个核心变量,目的是检验哪一种组合最接近“无损融合”。
第一个变量是子空间构造方式,即比较 SVD 和 ESD。前者建立在参数空间上,后者建立在输出空间上,这也是整项研究最核心的对比。
第二个变量是融合方式,即比较直接拼接和正交化处理。前者更直接,后者则试图消除不同任务表示之间的相关性。第三个变量是权重分配,即比较不加权融合和基于 norm 的 scaling。核心问题在于,不同任务信息在合并时是否应该被同等对待。
研究团队在数据设计上也有很强的针对性。所选任务覆盖图像、文本和数字等差异很大的类型,例如 Cars、SUN397、SST2 和 MNIST。目的不是追求任务丰富本身,而是尽量放大任务之间的差异与冲突。只有在这种高异质性条件下方法仍然有效,才能说明研究人员真正解决的是干扰问题,而不是仅在相近任务上取得局部改进。

与此同时,研究人员在构造 proxy 数据时,刻意把数据规模压到很小。每个任务只使用 32 个无标签样本。这种设计不仅是为了节省计算,更重要的是验证子空间究竟来自模型内在结构,还是仅来自数据统计结果。后续实验表明,研究人员提取到的确实更接近模型内部已经形成的任务结构。
为了保证不同任务在融合中拥有相对公平的表达容量,研究团队又设计了 rank 分配策略。让每个任务分配到的维度满足 k = 总维度 / 任务数。这一步本质上是在做资源公平分配,因为如果没有这种约束,强任务更容易占据更多表示空间,弱任务则可能被淹没。

进入融合阶段后,研究人员发现简单拼接会带来两个直接问题:一是不同任务子空间可能发生重叠,二是重叠后会引发信息冲突。因此又加入正交化步骤,其本质作用就是强制不同任务子空间尽量独立。这个过程在思想上很接近 PCA whitening 或信号去相关。
最后,在权重调整上,研究团队进一步从实验中发现,高 norm 往往对应更重要的参数变化,而低 norm 更接近噪声。因此设计出 scaling ∝ (norm / 平均值)^2 这样的规则,并且把这种缩放分成三个层面来实施:任务层防止某些任务被淹没,维度层突出更关键的特征方向,层级减少残差结构带来的干扰。

有限空间里的多任务共存机制
整体来看,这项研究的价值不只是提出了一种更强的模型融合方法,而是把模型融合从参数拼接,推进到了知识结构重组这一层面。过去很多方法默认,多个模型能不能融合,关键在于参数能不能平均好。但这项研究说明,真正需要被保留的其实是模型处理输入时依赖的关键功能方向。
也就是说,研究人员重新定义了模型融合问题。关注点不再只是参数本身,而是模型能力在表示空间里如何存在、如何共存。
这项研究还把多任务干扰解释得更清楚了。过去大家知道任务一多就容易互相拖累,但往往只能停留在“冲突”这个现象层面。研究团队进一步指出,干扰主要来自两个原因:一是不同任务会挤占相近的表示方向,二是强信息和弱信息在融合时会相互竞争。结果就是,重要知识容易被噪声淹没。
ESD 的意义在于把不同任务的核心方向尽量分开,PS 的意义在于把更重要的信号放大、把不重要的部分压下去。所以这项研究真正完成的,是把干扰的来源和解决路径连成了一个完整解释。
更深一层看,研究结果还揭示了深度模型内部一个很重要的性质:任务知识虽然存在于高维参数里,但真正决定性能的变化往往集中在少数方向上,而且这种结构对具体数据并不敏感。
这说明大模型内部并不是杂乱无章的,而是存在一种可以被提炼、被压缩、被重新组合的低维结构。这个发现的意义很大,因为它意味着未来改进模型,不一定总要依靠更大数据和更长训练,也可以通过理解模型内部已有的知识组织方式来提升能力。
这项研究对普通人的影响也很现实。它意味着未来的 AI 系统更有可能在不反复重训的情况下,把多种能力整合到同一个模型里,而且整合之后更稳定,不容易因为增加一个新功能就损伤原来的能力。
对普通用户来说,这会让 AI 工具更像一个能力完整的通用助手,而不是许多彼此割裂的小工具。对企业和平台来说,这也可能降低部署成本和算力消耗,最终体现在更便宜的服务、更快的响应,以及更多设备本地就能运行的智能功能。
所以,这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组。这既推动了学术上对模型内部机制的认识,也会影响普通人未来使用 AI 的方式。
ESM 背后的研究者
这篇论文通讯作者为耿新,他是东南大学首席教授、东南大学研究生院常务副院长,以及新一代人工智能技术与交叉应用教育部重点实验室主任。
他分别于 2001 年和 2004 年在南京大学获得学士、硕士学位,2008 年在澳大利亚 Deakin 大学获得博士学位,之后长期在东南大学从事教学与科研工作,并创建了模式学习与挖掘(PALM)实验室。
在学术成果方面,他长期深耕机器学习、大模型、模式识别、计算机视觉等方向,在重要国际期刊和会议发表论文 230 余篇,获得国家杰出青年科学基金、国家优秀青年科学基金、国家自然科学二等奖、教育部自然科学一等奖、国家级教学成果一等奖和二等奖、科学探索奖、吴文俊人工智能自然科学一等奖等荣誉,同时担任多个国际会议程序委员会主席、领域主席及多个期刊编委。
在研究工作上,他围绕模型中的知识表示与重组展开。早期代表性工作集中在标记分布学习,也就是把传统单标记或多标记学习问题推进到具有更细粒度表示的标记分布学习。之后又把研究重心逐步扩展到端侧大模型和学习基因(Learngene)等方向,探索从基础模型中提取可继承、可复用的核心能力,实现面向不同任务和不同硬件条件的高效部署。

另一位通讯作者为祁磊,东南大学计算机科学与工程学院副研究员、硕士生导师。早期在南京师范大学获得学士学位,在南京理工大学获得硕士学位,之后于 2020 年在南京大学获得博士学位,并在读博期间赴澳大利亚 University of Wollongong 进行访问交流。
在学术成果方面,祁磊在 ACM/IEEE 汇刊以及 CCF-A 类会议上发表 60 余篇论文,Google 学术引用 5300 余次,并主持多项国家级和省部级科研项目。同时,他还入选国家资助博士后研究人员计划、江苏省卓越博士后、东南大学紫金学者等人才计划,并获 CCF 产学合作基金优秀项目案例、江苏省人工智能学会优秀博士论文等奖项。
在研究方向上,祁磊的工作主要集中在计算机视觉与模式识别领域,近年来主要关注异常检测、语义分割,以及领域泛化和视觉语言模型等方向。

来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。