其他资讯开源开源代码与排行榜

ICML'26时间序列预测DAG模型：开源代码与排行榜测评

2026-05-18

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

华东师范大学团队提出DAG框架，通过构建时间与通道双维度相关网络，系统挖掘历史与未来

时间序列预测是经济学、交通规划和智能运维等领域进行量化决策的核心技术。传统方法通常局限于分析目标变量（内生变量）自身的历史轨迹，试图从中归纳出单一模式。然而，现实世界的系统是动态且相互关联的，预测结果往往受到多种外部驱动因素（外生变量或协变量）的共同影响。能否有效整合这些已知的外部信息，是提升预测模型精度与可靠性的关键所在。

现有方法在处理外生变量时存在明显局限。它们要么完全忽略未来可用的协变量信息，要么未能清晰建模内生与外生变量之间复杂的动态交互关系，导致预测潜力未能完全释放。

针对这一挑战，华东师范大学的研究团队提出了名为DAG的通用预测框架。该框架的核心创新在于，它不仅使用外生变量，更致力于“高效利用”。DAG通过构建时间和通道两个维度的相关性网络，系统性地挖掘并注入历史与未来、内生与外生之间的深层统计依赖，从而显著提升了预测的准确性。

该框架的核心机制分为两部分：在时间维度上，它学习历史外生变量影响未来外生变量的动态模式，并将这种时序依赖结构迁移到对目标变量的预测中；在通道维度上，它学习历史外生变量与历史内生变量之间的交互模式，再将这种跨变量关系迁移到利用未来外生变量进行预测的过程中。这种双重迁移学习机制，实现了信息更充分、更智能的融合。

研究背景：被忽视的“双重相关”结构

当前主流的时间序列预测模型，无论是单变量还是多变量，其建模重点大多放在目标变量自身的时间自相关性上。但在实际应用中，例如预测次日电价，除了历史电价数据，未来的天气预报、计划发电量等外生协变量同样包含决定性信息。特别是当部分未来协变量在预测时刻已知时（如已公布的节假日、计划内的营销活动），它们理应成为提升预测性能的强有力杠杆。

遗憾的是，现有方法对此的处理存在缺陷。一类方法完全舍弃未来协变量，仅依赖历史信息，这相当于主动放弃了部分已知信息。另一类方法虽然同时输入了历史和未来协变量，但由于缺乏对变量间因果或相关结构的显式建模，容易受到伪相关性的干扰，预测效果并不稳定。

问题的根源在于一个未被充分建模的“双重相关”结构。我们需要思考两个关键问题：在时间维度上，外生变量从历史到未来的演化模式，与内生变量的时间演化模式是否存在可迁移的相似结构？在通道维度上，历史阶段外生变量与内生变量之间的统计关系，是否能够指导我们理解未来阶段两者间的相互作用？

DAG框架正是通过显式建模并利用这两个维度的相关性，实现了预测性能的突破。

模型方法：时间与通道的双重奏

DAG的整体架构清晰地体现了其核心思想，如下图所示：

时间相关模块

该模块负责捕捉并迁移时间序列上的相关性。其设计基于一个核心假设：外生协变量的时间动态模式，与目标变量的时间演化模式共享某种潜在结构。

时间相关发现模块 首先将历史外生变量序列切分为片段（patch）并转换为token。随后，使用标准的Transformer块来学习这些历史片段对未来外生变量的影响权重。其巧妙之处在于，模块并非直接传递原始的注意力分数，而是提取并传递Transformer中可学习的查询（Query）和键（Key）矩阵参数，作为更鲁棒、更泛化的“时间相关表示”。同时，该模块会输出对未来外生变量的一个辅助预测，其预测误差构成“时间相关损失”，用于指导时间维度关联结构的学习。

时间相关注入模块 则负责将学到的“时间相关表示”应用于目标变量预测。它对历史内生变量进行同样的分块处理，然后使用一个“相关Transformer块”。在这个块中，注意力机制融合了两组信息：一组来自内生变量本身的投影，另一组则来自时间相关发现模块提取的查询/键参数。通过一个可学习的门控机制动态融合这两组注意力分数，最终生成基于历史内生变量的未来预测。至此，时间维度上学到的外生变量关联模式被有效注入。

通道相关模块

如果说时间模块关注纵向的“序列依赖”，那么通道模块则关注横向的“变量交互”。

通道相关发现模块 旨在建模历史外生变量如何影响历史内生变量。它将每个历史外生变量的整个序列编码为一个token，通过Transformer学习其与历史内生变量的统计关系。同样，它会提取注意力机制中的可学习参数作为“通道相关表示”，并输出对历史内生变量的辅助预测，其误差构成“通道相关损失”。

通道相关注入模块 则利用未来外生变量来预测未来内生变量，并注入前面学到的“通道相关表示”。其流程与时间注入模块类似：编码未来外生变量，在相关Transformer块中融合来自通道发现模块的相关参数，最终输出基于未来协变量的预测。这使得历史阶段学到的变量间交互模式，能够指导如何更有效地解读和利用未来的协变量信息。

损失函数与最终输出

DAG采用多任务学习进行训练，总损失由三部分组成：时间相关损失（评估预测未来外生变量的能力）、通道相关损失（评估建模历史变量间关系的能力）以及核心的预测损失（评估对未来内生变量的预测精度）。

模型的最终预测输出，是时间相关注入模块和通道相关注入模块分别生成的预测结果的加权融合。通过平衡相关建模损失与最终预测损失的权重，模型能够在学习通用相关结构和优化具体预测任务之间达到最佳权衡。

实验效果：全面领先，优势显著

整体性能

研究在12个真实世界数据集上进行了广泛的长期和短期预测实验，对比了包括TiDE、TFT、PatchTST等在内的9个主流基线模型。为确保对比公平，对于原本不支持未来协变量的模型，也通过添加额外的网络层进行了适配。

实验结果显示，在绝大多数数据集和不同的预测长度上，DAG的性能（以MSE和MAE衡量）均显著优于所有基线方法，证明了其框架设计的优越性和通用性。

消融实验

为验证各模块的有效性，研究进行了详细的消融分析。结果明确显示：

仅使用历史内生变量或仅使用未来外生变量，预测效果均不理想，证实单一信息源存在不足。
同时使用两者能带来显著性能提升。
分别引入时间相关模块或通道相关模块，都能进一步超越简单的特征拼接方法。
完整的DAG模型整合了双重相关结构，取得了最佳性能，证明了同时建模时间和通道相关性的必要性。

参数敏感性与鲁棒性

对关键参数的敏感性分析表明，DAG在较宽的参数范围内表现稳定。例如，预测融合权重和相关损失权重在0.3-0.7区间通常能取得良好效果；模型嵌入维度在64-256之间能较好地平衡性能与效率；而Patch长度则需要根据数据集的周期性等特点在8-32之间选择，以优化对局部特征的捕捉与计算成本。

应对未来信息缺失的场景

考虑到实际应用中未来协变量可能无法获取，研究也测试了DAG在仅使用历史外生变量时的表现，即用模型自身预测的未来外生变量替代真实值。即使在这种信息受限的模式下，DAG的表现依然稳健，优于许多专门为仅使用历史协变量而设计的基线方法，展现了框架的灵活性与鲁棒性。

总结

DAG框架为融合外生变量的时间序列预测问题提供了一个新颖且高效的解决方案。它通过构建时间和通道双重相关网络，系统性地挖掘并利用了数据中隐含的深层结构信息，特别是实现了对未来协变量的高效、结构化利用。全面的性能对比与细致的消融实验，均验证了该框架设计的有效性与先进性。这项工作不仅提升了预测任务的精度，也为如何在时序分析中更智能地融合多源异构信息提供了新的方法论视角。

来源：互联网

上一篇 京东Apple全系降价榜单：iPhone 17 Pro低至6999元，Air系列至高省3100元 下一篇 海螺AI书评与笔记整理全攻略：高效阅读必备技巧

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。