其他资讯 Omni视频生成实测

Gemini Omni视频生成实测：多模态输入效果与专业评测

2026-05-21

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

GeminiOmni正式发布，实现推理与创作能力融合。它支持图像、音频、视频和文字任意组合输

去年，Nano Banana将Gemini的智能引入图像生成与编辑领域，帮助数百万用户修复老照片、从草图出发进行创作，以及以前所未有的方式将创意可视化。从最初设计起，Gemini就以原生多模态为核心构建，如今我们迈出了下一步。

Gemini Omni正式发布：多模态输入生成高质量视频

今天，我们正式发布Gemini Omni，标志着Gemini的推理引擎与内容创作能力实现了深度整合。作为全新的多模态模型，Omni能够接受任意组合的输入并生成任意形式的内容，目前率先开放的是视频生成功能。这意味着，你可以混合图像、音频、视频和文字作为输入，生成基于Gemini真实世界知识的高质量视频，甚至可以通过自然对话的方式直接编辑视频内容。

从即日起，Omni家族的首个模型——Gemini Omni Flash，已面向Gemini应用、Google Flow以及YouTube Shorts的用户正式推出。后续，Omni还将逐步支持图像和音频等更多输出模态。那么，这个新模型的核心优势是什么？

通过对话编辑视频

Gemini Omni让视频编辑变得像对话一样简单——只需用自然语言描述你的需求。其强大之处在于，它能理解指令的上下文关联性，确保在多轮编辑中角色形象、物理逻辑和场景元素始终保持一致。

你可以自由改变画面中的世界，无论是细微调整还是彻底重塑场景。原始视频在这里成为创意的基石，让你能实现现实中无法拍摄的画面。

例如，输入提示：“将雕塑转化为由气泡构成的形态。” 模型便能准确执行。

它还能重新编排动作序列。基于你提供的视频素材，只需告诉Omni你的修改意图。无论是调整现有动作、添加新元素，还是将一个普通片段转化为充满想象力的场景，都能轻松完成。

参考以下示例：

提示：“当手指触碰镜面时，让镜子产生如水波般的涟漪，同时手臂材质变为反光的镜面。”

提示：“调暗室内光线。将一个黑白棋盘格房间置于悬浮于手掌上方的玻璃球内，球内包含手持玻璃球的递归影像，形成无限嵌套效果。镜头缓慢推近玻璃球，形成循环视频。”

提示：“让公寓内的灯光随着音乐节奏依次点亮。”

更重要的是，你可以在多轮对话中对视频进行持续精细化调整。无论是修改环境氛围、切换拍摄视角、调整艺术风格，还是优化具体细节，模型都能牢牢把握原始场景的叙事连贯性。

例如，从一段“小提琴手演奏”的视频开始，你可以连续指令：“将小提琴手置入这幅画的场景中。” -> “让小提琴从画面中消失。” -> “将摄像机机位移至小提琴手肩后视角。” Omni能够连贯理解并执行这一系列复杂指令。

融合Gemini世界知识，让创意真正落地

Gemini Omni的卓越之处，不仅在于构建视觉上逼真的场景，更在于它能智能推断场景的动态发展。它将对于物理规律的直觉理解，与Gemini在历史、科学和文化领域的庞大知识体系相结合，从而在照片级真实感与有意义的叙事之间建立了桥梁。

首先，它能生成物理模拟更精准的视觉内容。Omni对重力、动量、流体力学等物理原理有更深的理解，这使得它生成的动态场景更加自然可信。例如，根据提示“一颗弹珠在连锁反应轨道上快速滚动的连续跟拍镜头”，它能生成符合动力学规律的流畅动画。

其次，它实现了知识库与创造力的深度协同。Omni借助Gemini的知识储备，以超越简单模式匹配的方式，将语言、图像与深层语义关联起来。例如，一个复杂的提示要求视频快速展示26个字母，每个字母对应一个非常规物品（如C对应水豚、D对应迪斯科球），并配有特定样式的字幕条和平静的背景音乐。Omni不仅能识别每个字母对应的独特物品，还能将它们有机组织成富有节奏感的视觉序列。

最后，它让复杂概念的视觉化成为可能。Omni能够根据简洁的提示，生成具有吸引力的解说视频，将抽象或专业的概念转化为直观易懂的视觉呈现。例如，生成一个“内容准确、全部由粘土制成的关于蛋白质折叠的定格动画解说视频”，对它而言轻而易举。

支持任意输入组合生成视频

Omni的灵活性还体现在其对多样化输入素材的强大兼容性上。你可以自由混合各种参考材料。

无论是图像、文本、视频还是音频（目前音频参考主要支持语音，其他类型即将推出），Omni都能将它们融合为统一、连贯的视频输出。例如，你可以指令它“基于这张图片生成动态科幻风格视频，画面闪烁效果参考另一段视频，并与提供的音频节拍同步”。

这让你能够基于现有素材进行深度创作。利用输入的角色设计、场景构图或动作草图，你可以进行自由的二次创作。比如，“将这幅画作转化为写实风格动态画面，仅以线稿作为动作参考”，或者“将输入视频中的姿势与动作，迁移到另一张图像提供的角色身上”。

此外，你还可以通过输入参考素材来定义整体视觉风格，或直接使用自然语言描述。Omni会综合所有输入信息，生成风格高度一致的视频片段。例如，“保持视频主体不变，为滑板添加向外迸发的动画运动轨迹”，或者将一段鲸鱼游动的视频动作，应用于一种流动的反光材质，创造出独特的艺术效果。

使用专属数字分身创作视频

在推进技术前沿的同时，负责任地发展AI始终是我们的核心原则。为此，我们制定了明确的政策框架，以保护用户权益并规范AI工具的应用。

目前，用户可以通过“Avatar数字分身”功能，使用自己的声音创作视频——该功能会创建一个你的数字版本，生成外观和声音都与你高度相似的视频内容。至于通过编辑视频来修改他人音频和语音的功能，我们仍在进行严格的测试与评估，以找到最负责任、最安全的开放路径。

在安全与透明度方面，所有由Omni生成的视频都会自动嵌入我们不可感知的SynthID数字水印。用户可以通过Gemini应用、Chrome中的Gemini扩展程序以及Google搜索，轻松验证一段视频是否由Gemini Omni生成。这是我们帮助用户理解网络内容来源与编辑方式的重要一步。

立即体验Gemini Omni

从今天起，Omni家族的首个模型Gemini Omni Flash已全面上线。全球范围内的Google AI Plus、Pro及Ultra订阅用户，现在即可通过Gemini应用和Google Flow直接使用。从本周开始，YouTube Shorts和YouTube Create App的用户也可以免费体验这一功能。

在接下来的几周内，我们还将通过API向开发者和企业客户开放该模型，让更广泛的生态系统能够利用这一强大的创意工具。

Q&A

Q1：Gemini Omni能生成哪些类型的视频？

A：Gemini Omni目前核心支持视频生成与编辑。用户可以将图像、音频、视频和文字以任意形式组合作为输入，来生成高质量视频。未来它将逐步扩展至图像和音频等更多输出形式。其能力覆盖广泛，包括变换场景风格、调整物理模拟效果、进行多轮对话式精细编辑，以及基于草图或参考图像进行视频创作等。

Q2：Gemini Omni Flash现在如何获取？是否需要付费？

A：Gemini Omni Flash即日起面向全球的Google AI Plus、Pro和Ultra订阅用户开放，可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户从本周起可免费体验。未来数周内，开发者和企业客户也将能够通过API接入该模型。

Q3：Gemini Omni生成的视频如何防止被滥用？

A：所有由Gemini Omni生成的视频都会自动嵌入SynthID数字水印，这种水印对人眼不可见，但可通过技术手段进行识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索来验证视频是否为AI生成。此外，在权限控制上，Omni目前仅支持用户使用自己的声音创建数字分身视频；涉及更改他人音频和语音的功能，仍在以负责任的方式进行测试和评估，尚未开放。

来源：互联网

上一篇 AI搜索公司爆发增长：2024年权威榜单与趋势解析 下一篇 量子电路构建权威指南：2024顶尖研究团队创纪录方案全解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。