其他资讯

ICLR 2026精选：北大团队自适应时序预测损失方法解析

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

本研究针对多步时序预测中误差累积问题，提出可学习权重矩阵的QDF方法。该方法通过元学

在多步时间序列预测中，预测精度随步长增加而急剧下降是一个普遍存在的挑战。无论是气象、金融还是电力负荷预测，短期预测通常表现尚可，但一旦预测跨度延伸至数天或更久，误差累积、周期失真和趋势漂移等问题便会凸显。

针对此问题，主流研究方向多集中于设计更复杂的模型架构以捕捉长期依赖。然而，一个常被忽略的根本性视角是：性能瓶颈或许并非源于模型，而在于训练模型所使用的“指挥棒”——损失函数本身。

当前，绝大多数方法仍采用逐点均方误差作为优化目标。这无形中预设了两个前提：未来各时间点的预测相互独立，且所有预测步的重要性相同。但现实数据果真如此吗？后天的天气与明天毫无关联？预测下一小时与预测下一周的难度会一致？答案显然是否定的。

正是基于对这一核心矛盾的洞察，林宙辰教授团队近期提出了《Quadratic Direct Forecast for Training Multi-step Time-Series Forecast Models》的研究。该工作未改动任何模型结构，而是选择重构训练目标，通过显式建模预测步之间的相关性及不确定性差异，仅从优化机制层面就显著提升了多步预测性能。这为理解长期预测失效提供了更本质的新视角。

问题根源：均方误差的两个先验

当前时序预测领域的标准范式，是使用逐时间点的均方误差作为损失函数：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

这个简洁公式背后，实则隐含了两个强假设：第一，未来不同时间点的预测值条件独立；第二，所有预测步的优化权重均等。

然而，现实世界的时间序列普遍具有自相关性和异方差性。这意味着未来值彼此关联，且预测不同时间点的不确定性存在差异。若损失函数无法刻画这些内在结构，模型在长期预测中表现出的系统性偏差，便不再是偶然现象，而是训练阶段错误假设导致的必然结果。

研究团队通过实验验证了上述两点。首先，对标签序列条件协方差进行偏相关分析发现，在控制历史输入后，未来不同时间点间仍存在大量非零偏相关系数，这直接否定了MSE隐含的条件独立假设。

其次，对标签序列条件方差的分析显示，不同时间点的误差方差差异显著，且整体随预测步长增加而增大。这明确表明，将所有预测步视为等难度任务，并不符合数据的真实统计特性。

QDF：从数据中自适应学习预测损失

针对MSE存在的这两项结构性偏差，研究团队提出了QDF方法。其核心在于一个范式转换：不再将损失函数视为固定公式，而是将其本身作为一个可从数据中“学习”的参数化对象。

从概率建模出发，理想的损失函数应源于数据的负对数似然。在高斯误差假设下，给定历史序列，未来标签序列的条件分布是一个多元高斯分布。其对应的负对数似然可表示为二次型：

$$\mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x},\mathbf{y};g_\theta) = (\mathbf{y} - g_\theta(\mathbf{x}))^\top \boldsymbol{\bar{\Sigma}} (\mathbf{y} - g_\theta(\mathbf{x}))$$

其中，权重矩阵 $\boldsymbol{\bar{\Sigma}}$ 是标签序列条件协方差矩阵的逆。这一形式在理论上非常优美：权重矩阵的非对角元素刻画了未来时间点间的条件相关性，从而显式建模了标签的自相关效应；而对角元素则反映了各预测步的不确定性差异，使模型能为不同难度任务分配自适应权重。至此，MSE的两个不合理先验被同时打破。

但在实际任务中，理想的权重矩阵 $\boldsymbol{\bar{\Sigma}}$ 未知且难以直接估计。为此，研究团队借鉴元学习思想，设计了一个双层优化机制来从数据中学习它：

$$\min_{\boldsymbol{\Sigma} \succeq 0} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{out}}, \mathbf{y}_{\text{out}};g_{\theta^*}) \quad \text{s.t.} \quad \theta^* = \arg\min_{\theta} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{in}}, \mathbf{y}_{\text{in}};g_\theta)$$

该机制分为内外两层循环。内层循环在给定权重矩阵 $\boldsymbol{\Sigma}$ 下，用部分训练数据更新预测模型参数 $\theta$。外层循环则根据更新后模型在另一部分数据上的泛化表现，反向优化权重矩阵 $\boldsymbol{\Sigma}$ 本身。

这一设计的精妙之处在于，它使训练目标的优劣不再仅由训练集拟合度决定，而是由其在新数据上的泛化能力来评判。通过迭代，算法能学习到数据中稳定的误差相关模式，从而形成一个既符合统计原理又具备良好泛化性的自适应损失函数。

在大量实验中，一致验证优势

为验证QDF的有效性，论文进行了广泛实验。首先，与旨在削弱标签相关性的现有方法比较显示，这些方法虽较MSE有改进，但在稳定性和性能上限上均不及QDF。原因在于它们仅部分处理了标签相关性，而QDF通过元学习同时建模了相关性与不确定性，更彻底地解决了损失函数的结构偏差。

其次，消融实验分别验证了“建模不同预测步权重”和“建模时间相关性”两个关键因素的作用。实验表明，单独引入任一因素都能带来性能提升，而两者结合时效果最为显著，这证实了QDF设计思路的完备性。

更具说服力的是对预测序列的可视化分析。基于MSE训练的模型，其预测结果在周期性序列中普遍存在振幅压缩、峰值抹平、拐点响应滞后等问题。而引入QDF后，模型的预测在峰值位置、周期相位和长期趋势稳定性上与真实值保持了更高一致性，时间序列的整体结构得到了更好保留。

一次针对均方误差的系统性审视

从更宏观的研究意义看，这项工作首先是对时序预测领域一个长期默认假设的系统性质疑与验证。它用严谨分析证明，将多步预测视为多个独立且等权重的回归任务，这一前提本身并不成立。

更进一步，研究提出了一种新颖的方法论：将损失函数本身参数化并作为可学习对象。这不同于传统的超参数调优或启发式设计，而是通过引入结构化权重参数，显式建模数据内在特性，并利用元学习框架从泛化性能中直接学习最优损失形式。该方法使训练目标能自适应调整，从而更贴合特定数据的统计规律。

对于后续研究者，这项工作的启示超越了其具体的QDF方法。它强调了持续审视领域内“常识”的重要性，展示了如何从第一性原理出发推导合理的优化目标，并为元学习思想与领域特定知识的深度结合提供了一个优秀范例。

作者信息

本论文第一作者是浙江大学控制学院博士研究生王浩，其研究方向聚焦于因果推断、多任务学习技术及其在大语言模型中的应用。他于2022年至2023年在蚂蚁集团和微软亚洲研究院进行科研实习，从事推荐系统理论研究。自2025年起，他在小红书参与RedStar实习项目，进行大语言模型与可信奖励模型相关研究。

论文通讯作者是北京大学智能学院、通用人工智能全国重点实验室的林宙辰教授。其研究领域涵盖机器学习与数值优化。林教授已发表学术论文360余篇，谷歌学术引用超42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG等多个国际学术组织的会士，并多次担任CVPR、NeurIPS、ICML等顶级会议的资深领域主席，现任ICML董事会成员。

来源：互联网

上一篇 ICLR 2026论文解读：清华团队重新评测强化学习对大模型能力的提升效果 下一篇 Search-R2重构推理：腾讯混元联合MBZUAI与港中文，将纠错融入策略空间提升搜索增强学习

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。