首页 > 资讯 > AI视频模型物理理解力测评：弗莱堡大学联合研究

其他资讯 AI视频弗莱堡大学联合研究

AI视频模型物理理解力测评：弗莱堡大学联合研究

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这份研究或许是近期AI视频生成模型领域最令人冷静的产出之一。先抛出几个硬核结论：当

这份研究或许是近期AI视频生成模型领域最令人冷静的产出之一。

先抛出几个硬核结论：当前最强的开源视频生成模型，在基础物理规律理解上的成功率仅为22%。更棘手的是，仅仅改变相机角度——完全不动任何物理参数——就能让模型预测质量出现剧烈波动。换言之，这些模型大概率并未真正“理解”物理，而是擅长“绘制”出看似合理的画面。

这项研究由弗莱堡大学、马克斯·普朗克信息学研究所和CISPA亥姆霍兹信息安全中心联合完成，论文以预印本形式发布，编号arXiv:2605.23699，感兴趣者可查阅全文。

AI视频生成模型到底懂物理吗？弗莱堡大学、马克斯·普朗克研究所和CISPA联合研究给出了让人警醒的答案

当AI“看图说话”时，真的在理解物理世界吗

近年来技术飞跃令人瞩目：你提供一张静态图或几秒视频片段，模型就能自动生成流畅、细节丰富的后续画面——球体滚动、物体碰撞，一切显得逼真。于是，一个乐观假设开始流行：这些模型正演化为“世界模型”，具备理解并预测真实物理世界运作规律的能力。

但“看起来真实”与“真正理解物理规律”之间存在巨大鸿沟。打个比方：一个从未学过物理的人，看了大量苹果落地的视频后，或许能画出逼真的苹果落地画。但一旦换个拍摄角度或把苹果换成橙子，画作就会偏离实际。他学到的不是“重力定律”，而是“我见过的苹果落地画面样式”。

研究团队的核心问题正基于此：当前最先进的AI视频生成模型，究竟更像掌握重力定律的物理学生，还是更像只记住了特定画面样式的绘画爱好者？

为回答这一问题，他们构建了CRONOS测试基准，系统化地改变视频视觉条件，检验模型预测是否真正稳定合理。结果揭示出的缺陷，值得每一位对AI未来抱有期待的人严肃对待。

一、测试核心思路：换件衣服，AI就认不出你了吗？

CRONOS的测试逻辑可用日常场景理解。假设你认识小明，了解他的走路姿势、说话方式，知道他被自行车撞后会摔倒。现在小明换了件衬衫，你仍能准确预测他被撞后的状态——因为摔倒方式和衬衫颜色无关。

但AI呢？研究团队的核心问题正是：当场景视觉外观发生变化——变换拍摄角度、更换背景环境、改变物体颜色甚至物体类型——AI对同一物理事件的预测质量是否随之大幅波动？

如果AI真正理解物理规律，那么换角度看同一碰撞事件，其预测质量应基本不变。但如果它只记住了特定画面风格下的视觉模式，一旦视觉条件改变，表现就会大打折扣。这种在不同视觉条件下保持预测质量稳定的能力，研究团队将其命名为“反事实物理一致性”。

二、构建测试场：一座由虚幻引擎打造的物理实验室

要进行系统性测试，需要一套能精准控制所有变量的视频数据集。真实世界视频拍摄难以做到——你几乎无法在完全相同的物理事件下，只精确改变拍摄角度而保持物体、场景、光照完全一致。

于是研究团队选择虚幻引擎——一款被电影与游戏行业广泛使用的专业级三维渲染工具。在这座数字物理实验室中，他们能精确控制每一个参数：物体质量、摩擦力、弹性系数，相机位置、背景环境、外观颜色，所有变量均可单独调整，其余条件保持不变。

这套虚拟实验室渲染出的视频分辨率达1920×1080像素，帧率30fps，视觉质量极高，同时还能为每个物体提供精准的分割遮罩，便于后续精细化评估。

在物理事件设计上，研究团队精心挑选三种典型场景，分别代表物理交互的不同基本类型。第一种是“滚落”事件：物体在平面滚动并从边缘跌落，涉及接触面变化和自由落体运动，考验AI对重力与惯性的理解。第二种是“碰撞”事件：运动物体撞击静止物体，考验AI能否正确预测动量传递、碰后轨迹，并维持物体形状完整性。第三种是“遮挡”事件：物体滚过一段路程后被另一物体遮挡再出现，考验AI在物体暂时消失于视野后仍能正确推断其后续运动。

这三种事件共同覆盖了刚体运动的核心交互形式——既有轨迹预测，又有物体交互，还有长时序逻辑一致性。

三、四把手术刀：精准切开影响预测的四个视觉维度

研究团队利用虚拟实验室系统性地进行“反事实干预”——在保持物理事件完全相同的前提下，每次只改变一个视觉因素，观察AI预测质量的变化。他们选择四个干预维度：

第一维度是场景干预，即改变背景环境。数据集中包含五种场景，有室内也有室外，地面材质和空间布局各不相同。对于滚落事件，场景变化还会影响跌落高度，这意味着场景干预不仅是视觉变化，有时还会引入真实物理参数差异。

第二维度是拍摄视角干预，即从不同角度拍摄完全相同的物理事件。此干预最为关键：视角改变不影响任何物理参数（质量、速度、轨迹均无变化），仅摄像机位置改变。一个真正理解物理的模型，面对同一事件的不同视角，预测质量应保持稳定。

第三维度是物体外观干预，即改变物体颜色或表面纹理，但不改变形状和物理参数。这是最“无害”的干预——换颜色不影响物理运动，因此理想情况下AI预测质量应对外观变化完全不敏感。

第四维度是物体类别干预，即将主体物体替换为另一种物体。这是最复杂的干预：不同物体不仅外观不同，物理属性（质量、摩擦系数、弹性）也有差异，实际运动轨迹会改变。因此该干预既测试AI能否适应视觉变化，也测试其能否相应调整对物理参数的判断。

最终，这套全因子设计产生了675段参考视频（遮挡事件因需保持特定能见度结构而不进行视角变化），覆盖3种物理事件、5个场景、5种物体类别、最多4个拍摄视角、3种外观变化的组合。

四、评测标准：不只“好看与否”，而是“正确与否”

传统AI视频评测通常只关注生成视频的视觉质量——画面是否清晰、物体边缘是否锐利。但CRONOS团队认为这远远不够。他们设计了一套多维度、更细致的评测指标体系，每个指标聚焦于生成视频的某一具体方面。

外观稳定性衡量视频中物体的视觉身份是否保持一致。如果在第一帧看到红色小球，但随着视频进行，颜色开始漂移、纹理变得奇怪，就是外观不稳定。研究团队使用DINOv2深度学习视觉特征提取器，通过比较各帧中物体图像的特征相似度来量化稳定性。技术细节：先遮盖背景，只分析物体本身，从而避免背景变化的干扰。

背景稳定性衡量背景区域是否保持静止一致。在这些物理事件视频中，背景应完全静止——没有莫名出现的新物体、无光照漂移、无摄像机晃动。检测方式：直接比较各帧背景区域与第一帧的像素级差异，任何异常背景变动都会降低分数。

三维形状稳定性是一个相当新颖的指标。物体的三维形状在整个视频过程中应保持不变——一个球从头到尾应为球形，不应突然变成椭圆或奇怪多边形。研究团队使用SAM3D三维形状重建模型，从每帧视频中推断物体的三维网格，然后用Chamfer距离量化形状变化。

运动相似性衡量AI生成视频中的运动模式与参考视频是否相似。精妙设计：使用DisMo运动编码器，该编码器专门训练成对物体外观不敏感，只关注运动本身的抽象模式。这样即使物体换了颜色，运动相似性衡量也不受干扰，能更纯粹地评估AI是否预测出正确运动轨迹。

物理合理性则是更宏观的事件级评估。研究团队使用Qwen3-VL-32B视觉语言大模型“观看”视频，回答一系列针对特定物理事件设计的判断题。比如对滚落事件，问题包括“物体是否在到达边缘后跌落”“物体跌落时是否加速”；对碰撞事件，会问“两物体是否发生接触”“碰撞后运动变化是否符合物理规律”等。每个事件有5道专属题，另有5道通用题（如“背景是否保持静止”“物体在视频过程中是否保持形状和颜色”），总共十道题的答对率决定最终物理合理性分数。

最后，成功率将上述所有指标综合成一个二元判断——只有视频在所有单项指标都超过预先标定阈值时才算“通过”。这些阈值通过真人用户研究标定：凡是人类评注者认为某维度表现不达标（低于5分制的3分）的视频，对应的自动化指标应落在阈值以下。这种与人类感知对齐的标定方式，使成功率具备实际意义。

在灵敏度分析方面，研究团队专门设计了衡量“干预敏感性”的指标：对于同一组干预实验（如同一物理事件在不同视角下的多个版本），计算各版本指标分数之间的最大差距。差距越小，说明模型对该干预类型越不敏感，即反事实物理一致性越好。

五、参与测试的AI选手：四位来自不同门派的视频生成高手

研究团队选择了当前开源社区最具代表性的几款视频生成模型来参加测试。Cosmos2.5由英伟达发布，是自回归视频生成模型，采用token逐步预测方式生成视频，研究团队分别测试了2B（20亿参数）和14B（140亿参数）两个版本，以研究模型规模对性能的影响。MAGI-1由Sand AI开发，是另一款自回归架构的视频模型，参数量4.5B。CogVideoX1.5来自智谱AI，是基于扩散Transformer架构的图生视频模型，参数量5B。Wan2.2由阿里通义团队发布，参数量14B，是大型视频生成模型。

测试分为两种条件。图像生成视频（I2V）条件下，所有模型只接收物理事件第一帧图像，需自主预测后续发展。视频生成视频（V2V）条件下，Cosmos和MAGI-1额外接收前5帧视频，这些帧包含物体初始运动方向和速度信息，因此提供更多物理状态线索。

为减少随机性影响，每个实验配置下生成三个不同随机种子的视频，取其中运动相似性最高的作为该模型在该配置下的最优表现——这种“最优三次”评测方式，让模型有机会展示最佳状态。

所有实验使用的文字提示语均经过精心设计，描述场景配置、物体属性和预期运动方式，但不过分提供具体轨迹细节，以保留合理的不确定性空间。

六、真人先验证：让人类来校准机器的眼光

在正式分析AI表现前，研究团队做了一件非常严谨的事：通过真实人类用户研究验证自动化评测指标是否真正有意义。

他们通过Prolific平台招募8位合格的人工标注员，每人均经过资质审核和入职考试，以每小时14英镑的报酬参与工作。标注员观看从各模型中精心挑选的540段视频，对每段视频在物体外观、物体形状、背景稳定性、运动合理性和事件质量五个维度上进行1到5分评分。每段视频由3位标注员评分，取中位数作为最终人类评分。

将人类评分与自动化指标分数对比，研究团队发现两者之间存在显著正相关。背景稳定性指标与人类评分的相关系数高达1.00，三维形状稳定性相关系数0.92，物理合理性相关系数0.86，外观稳定性相关系数0.82。运动相似性相关系数0.68，虽相对较低，但p值为0.07，仍在可接受统计显著性范围内。这些验证结果支持了研究团队后续使用这套自动化指标的合理性。

七、测试结果：几个让人清醒的发现

当所有测试跑完，数字汇总后，研究团队得到了几个具有相当重量的发现。

第一：所有参与测试的开源AI视频模型，在生成基础物理事件视频方面表现相当糟糕。即使表现最好的模型，总体成功率也只有22%——也就是说，10段视频里近8段“不合格”。其他大多数模型成功率甚至不足15%。从各项指标看，所有模型至少在一个维度上存在明显短板，没有任何模型能在所有方面同时达标。

具体看各模型表现：Cosmos2.5（2B参数，V2V模式）和Wan2.2（14B参数，I2V模式）综合表现最好，成功率分别为22%和20%。MAGI-1和CogVideoX1.5整体表现明显较差，成功率仅在1%到2%之间。各模型在具体指标上的差异也很显著——以背景稳定性为例，Cosmos2.5-2B（V2V模式）得分高达0.77，而MAGI-1-4.5B得分仅为0.21，几乎是前者的四分之一。

第二：所有模型对视觉干预极为敏感，尤其是视角变化带来的干预。从灵敏度分析结果看，仅仅改变摄像机角度——这一不影响任何物理参数的因素——就能让大多数模型的预测质量产生0.3到0.4左右的波动（0到1归一化尺度），这是相当大的变动幅度。换句话说，对于同一碰撞事件，从正面拍和从侧面拍，AI给出的预测质量可能差异悬殊。

在四种干预类型中，视角变化引起的灵敏度普遍最高，其次是物体类别变化，然后是场景变化，而外观变化（仅改变颜色）引起的灵敏度相对最低——但即便如此，仅换个颜色，最稳健的模型也会出现约20%的性能波动，这对于一个应“不在乎颜色”的物理预测任务来说，仍是令人困扰的数字。

这种对视角高度敏感的现象揭示了一个深层问题：这些模型的预测机制强烈依赖视角，它们学到的不是“在三维空间中理解物理规律”，而是“在某种特定视觉构图下，这类画面应该怎样延续”。一旦视觉构图改变，模型就像换了一个从未见过的视角在猜测，性能随之下滑。

第三：使用多帧视频作为输入（V2V模式）比只用单张图像（I2V模式）效果明显更好，而且改善不仅体现在运动预测上，还体现在背景稳定性和物体外观稳定性上。研究团队推测，多帧条件下模型能从连续帧中建立更稳定的物体表示，对摄像机运动的理解也更清晰，从而生成背景更稳定的视频。

第四：将Cosmos2.5从2B参数扩展到14B参数，在几乎所有指标上的表现反而下降。V2V模式下，2B版本成功率为22%，14B版本仅有14%；I2V模式下，2B版本成功率12%，14B版本仅8%。这一结果与此前部分研究者观点吻合——更大的模型在训练数据分布内可能表现更好，但在需要真正泛化物理规律的场景下，更多参数并不必然带来更好的泛化能力。当然，研究团队也指出，该发现仅基于一个模型家族的单次规模对比，需要更多证据才能得出更普遍结论，但CRONOS基准已为未来深入研究提供了工具。

第五：各事件类型细分结果。碰撞事件在物理合理性指标上的表现普遍高于滚落事件——这可能是因为碰撞事件的判断题（“两物体是否接触了”）相对直观，而滚落事件中的物理细节（加速轨迹、落点位置）更难被AI模型正确再现。遮挡事件在物理合理性上表现最好，因为“物体消失后是否重新出现”这类判断相对容易，但形状稳定性上的挑战更大，因为长时序物体跟踪会积累更多误差。

八、局限与未来：这套测试本身有哪些边界

研究团队对自身工作的局限进行了相当坦诚的讨论。

最明显的局限是合成数据与真实世界之间的领域差距。CRONOS使用虚幻引擎渲染的合成视频，虽然画质精良，但与真实拍摄视频在纹理细节、光照变化、噪声特性等方面仍存在差异。因此，CRONOS上的测试结果更应被理解为诊断性证据，而非对模型在真实视频场景中表现的直接估算。

另一个局限是参考视频的单一性。大多数指标将AI生成视频与唯一一段参考渲染进行比较。但实际上，对于同一物理初始条件，存在多种物理上合理的后续发展——例如碰撞后物体可能以不同角度弹开，仍符合动量守恒定律。研究团队通过多种子采样和专门设计的不依赖参考视频的稳定性指标来部分缓解此问题，但未来版本应能与多个物理上合理的参考轨迹进行比较。

此外，测试覆盖的模型仅限于开源模型，像Veo、Sora、Kling等商业闭源模型未纳入评测。这不是研究团队的疏漏，而是客观限制——固定权重和可复现设置是进行严格对比分析的前提条件。考虑到即便最强的开源模型成功率也仅为22%，这套基准距离“被饱和”仍有很长路要走，未来研究者完全可以在此基础上继续推进。

归根结底，CRONOS这项研究提供了一面照出AI视频生成领域真实状况的镜子。当前这些模型生成的视频看起来越来越像真的，但在理解物理世界这件事上，它们很可能仍停留在“记住了常见画面长什么样”的阶段，而非真正掌握了“无论哪个角度、什么颜色的物体，在重力下都会按这套规律运动”这种本质性的物理认知。

对普通人意味着什么？至少在可预见的将来，将AI视频生成器当作可靠的物理仿真工具使用需格外谨慎。一段AI生成的“滚球撞杯子”视频如果看起来很合理，可能只是因为这类画面在训练数据中大量出现过，而非AI真的计算了动量守恒。

当然，这个领域的进步速度也不容小觑。也许在不久的将来，会有模型在CRONOS上取得真正令人信服的成绩，届时我们才能更有把握地说，AI开始真正“理解”物理世界了。在此之前，CRONOS提供了一把量尺，让研究者可以清晰追踪这条路走了多远。完整论文可通过编号arXiv:2605.23699查阅，数据集和评测代码也已公开发布在论文主页上。

Q&A

Q1：CRONOS基准测试和普通的视频生成质量评测有什么不同？

普通视频评测主要看画面是否清晰好看，而CRONOS专门测试同一物理事件在视角、场景、物体外观等视觉条件发生变化时，AI的预测质量是否保持稳定。换句话说，CRONOS不是问“视频好不好看”，而是问“AI是否真正理解物理规律，而不只是记住了特定画面的视觉风格”。

Q2：为什么换个摄像机角度会让AI视频生成模型表现变差？

因为目前这些模型主要从海量视频数据中学习“什么样的画面接着什么样的画面”，而不是真正在三维空间中理解物体运动规律。同一个碰撞事件从正面拍和从侧面拍，画面构图差异很大，模型可能对某个角度见得多、对另一个角度见得少，导致预测质量出现明显差异。

Q3：Cosmos2.5把参数从2B扩大到14B，为什么效果反而变差了？

CRONOS测试的是模型在受控干预下的物理一致性，而非训练数据分布内的生成质量。更大的模型可能更擅长模仿训练数据中常见的视觉模式，但这不等于更好地泛化物理规律。当测试条件包含系统性视觉变化时，靠记忆视觉模式的策略反而可能引起更大波动，导致规模扩大后性能不升反降。

来源：互联网

上一篇 iOS 26最详细横屏待机模式设置教程完整版：一步步教你开启智能显示 下一篇 iPhone 17开不了机？5大实用自救方法，快速解决开机难题

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。