辅助资源

谷歌 DeepMind 推 CAT4D：AI 魔法突破次元壁，普通视频活变 3D 大片

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

谷歌DeepMind推出CAT4D：用AI将普通视频“点化”为动态3D场景最近科技圈有个消息挺有意思。

谷歌DeepMind推出CAT4D：用AI将普通视频“点化”为动态3D场景

最近科技圈有个消息挺有意思。The Decoder在1月3日报道，谷歌DeepMind联手哥伦比亚大学和加州大学圣地亚哥分校的研究团队，捣鼓出了一个叫CAT4D的AI系统。这玩意儿最厉害的地方在哪？它能把咱们手机随手拍的普通视频，直接转化成可以多角度观看的动态3D场景。这事儿要是成了，3D内容创作的门槛可真就降下来了，对游戏、影视好几个行业来说，都可能意味着新的玩法。

那么，CAT4D具体是怎么做到的呢？其实核心靠的是扩散模型。简单来说，系统能“脑补”出单视角视频里缺失的其他角度画面，然后把它们拼合成一个完整的、立体的动态场景。这样一来，观看者就不只是盯着一个固定镜头了，而是能“走进”视频里，从不同方位打量主体对象，沉浸感完全不一样。下面的演示图能让你更直观地感受这种变化：

谷歌 DeepMind 推 CAT4D：AI 魔法突破次元壁，普通视频活变 3D 大片

要知道，过去想实现类似效果，阵仗可不小。你得动用多台摄像机，从不同机位同时拍摄同一个场景，费时费力还烧钱。CAT4D的出现，等于是把这道复杂的工序给简化了——有段普通视频素材，它就有机会给你变出3D魔法。这其中的潜力，游戏开发、电影制作，还有正火热的增强现实（AR）领域，想必都已经看在眼里了。

当然，任何强大的AI都离不开海量数据的喂养。有意思的是，研发团队在训练过程中碰到了一个现实问题：现成的、符合要求的动态3D场景数据实在太少了。怎么办？他们的对策很巧妙：把真实世界拍摄的镜头，和计算机生成的内容混合到一块儿用。这个训练数据“食谱”里，包含了静态场景的多视角图片、单视角视频，以及合成的4D数据。通过扩散模型持续学习，系统逐渐掌握了在特定时刻、从特定角度“生成”逼真图像的能耐。

话说回来，新技术刚落地，难免有需要打磨的地方。比如目前CAT4D生成的3D场景，时长上还比原始视频要短一些。但即便如此，它的成像质量已经被验证优于其他同类系统了。这已经是个相当积极的信号。从前景来看，这项技术的想象空间确实很广。游戏开发者可以用来快速构建虚拟环境，电影制作人和AR应用开发者，也能把它作为一种高效的工具，融入到现有的工作流程中去。接下来的发展，值得保持关注。

来源：互联网

上一篇 阿里发布 Qwen-Agent 框架，赋能开发者构建复杂 AI 智能体 下一篇 Brain.fm：AI音乐疗愈师，帮助你更好地集中注意力、放松和睡眠

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

谷歌 DeepMind 推 CAT4D：AI 魔法突破次元壁，普通视频活变 3D 大片

摘要

谷歌DeepMind推出CAT4D：用AI将普通视频“点化”为动态3D场景

相关文章推荐