Gemini Omni视频生成实测:多模态输入效果与专业评测
摘要
GeminiOmni正式发布,实现推理与创作能力融合。它支持图像、音频、视频和文字任意组合输
去年,Nano Banana将Gemini的智能引入图像生成与编辑领域,帮助数百万用户修复老照片、从草图出发进行创作,以及以前所未有的方式将创意可视化。从最初设计起,Gemini就以原生多模态为核心构建,如今我们迈出了下一步。

今天,我们正式发布Gemini Omni,标志着Gemini的推理引擎与内容创作能力实现了深度整合。作为全新的多模态模型,Omni能够接受任意组合的输入并生成任意形式的内容,目前率先开放的是视频生成功能。这意味着,你可以混合图像、音频、视频和文字作为输入,生成基于Gemini真实世界知识的高质量视频,甚至可以通过自然对话的方式直接编辑视频内容。
从即日起,Omni家族的首个模型——Gemini Omni Flash,已面向Gemini应用、Google Flow以及YouTube Shorts的用户正式推出。后续,Omni还将逐步支持图像和音频等更多输出模态。那么,这个新模型的核心优势是什么?
通过对话编辑视频
Gemini Omni让视频编辑变得像对话一样简单——只需用自然语言描述你的需求。其强大之处在于,它能理解指令的上下文关联性,确保在多轮编辑中角色形象、物理逻辑和场景元素始终保持一致。
你可以自由改变画面中的世界,无论是细微调整还是彻底重塑场景。原始视频在这里成为创意的基石,让你能实现现实中无法拍摄的画面。
例如,输入提示:“将雕塑转化为由气泡构成的形态。” 模型便能准确执行。
它还能重新编排动作序列。基于你提供的视频素材,只需告诉Omni你的修改意图。无论是调整现有动作、添加新元素,还是将一个普通片段转化为充满想象力的场景,都能轻松完成。
参考以下示例:
提示:“当手指触碰镜面时,让镜子产生如水波般的涟漪,同时手臂材质变为反光的镜面。”
提示:“调暗室内光线。将一个黑白棋盘格房间置于悬浮于手掌上方的玻璃球内,球内包含手持玻璃球的递归影像,形成无限嵌套效果。镜头缓慢推近玻璃球,形成循环视频。”
提示:“让公寓内的灯光随着音乐节奏依次点亮。”
更重要的是,你可以在多轮对话中对视频进行持续精细化调整。无论是修改环境氛围、切换拍摄视角、调整艺术风格,还是优化具体细节,模型都能牢牢把握原始场景的叙事连贯性。
例如,从一段“小提琴手演奏”的视频开始,你可以连续指令:“将小提琴手置入这幅画的场景中。” -> “让小提琴从画面中消失。” -> “将摄像机机位移至小提琴手肩后视角。” Omni能够连贯理解并执行这一系列复杂指令。
融合Gemini世界知识,让创意真正落地
Gemini Omni的卓越之处,不仅在于构建视觉上逼真的场景,更在于它能智能推断场景的动态发展。它将对于物理规律的直觉理解,与Gemini在历史、科学和文化领域的庞大知识体系相结合,从而在照片级真实感与有意义的叙事之间建立了桥梁。
首先,它能生成物理模拟更精准的视觉内容。Omni对重力、动量、流体力学等物理原理有更深的理解,这使得它生成的动态场景更加自然可信。例如,根据提示“一颗弹珠在连锁反应轨道上快速滚动的连续跟拍镜头”,它能生成符合动力学规律的流畅动画。
其次,它实现了知识库与创造力的深度协同。Omni借助Gemini的知识储备,以超越简单模式匹配的方式,将语言、图像与深层语义关联起来。例如,一个复杂的提示要求视频快速展示26个字母,每个字母对应一个非常规物品(如C对应水豚、D对应迪斯科球),并配有特定样式的字幕条和平静的背景音乐。Omni不仅能识别每个字母对应的独特物品,还能将它们有机组织成富有节奏感的视觉序列。
最后,它让复杂概念的视觉化成为可能。Omni能够根据简洁的提示,生成具有吸引力的解说视频,将抽象或专业的概念转化为直观易懂的视觉呈现。例如,生成一个“内容准确、全部由粘土制成的关于蛋白质折叠的定格动画解说视频”,对它而言轻而易举。
支持任意输入组合生成视频
Omni的灵活性还体现在其对多样化输入素材的强大兼容性上。你可以自由混合各种参考材料。
无论是图像、文本、视频还是音频(目前音频参考主要支持语音,其他类型即将推出),Omni都能将它们融合为统一、连贯的视频输出。例如,你可以指令它“基于这张图片生成动态科幻风格视频,画面闪烁效果参考另一段视频,并与提供的音频节拍同步”。
这让你能够基于现有素材进行深度创作。利用输入的角色设计、场景构图或动作草图,你可以进行自由的二次创作。比如,“将这幅画作转化为写实风格动态画面,仅以线稿作为动作参考”,或者“将输入视频中的姿势与动作,迁移到另一张图像提供的角色身上”。
此外,你还可以通过输入参考素材来定义整体视觉风格,或直接使用自然语言描述。Omni会综合所有输入信息,生成风格高度一致的视频片段。例如,“保持视频主体不变,为滑板添加向外迸发的动画运动轨迹”,或者将一段鲸鱼游动的视频动作,应用于一种流动的反光材质,创造出独特的艺术效果。
使用专属数字分身创作视频
在推进技术前沿的同时,负责任地发展AI始终是我们的核心原则。为此,我们制定了明确的政策框架,以保护用户权益并规范AI工具的应用。
目前,用户可以通过“Avatar数字分身”功能,使用自己的声音创作视频——该功能会创建一个你的数字版本,生成外观和声音都与你高度相似的视频内容。至于通过编辑视频来修改他人音频和语音的功能,我们仍在进行严格的测试与评估,以找到最负责任、最安全的开放路径。
在安全与透明度方面,所有由Omni生成的视频都会自动嵌入我们不可感知的SynthID数字水印。用户可以通过Gemini应用、Chrome中的Gemini扩展程序以及Google搜索,轻松验证一段视频是否由Gemini Omni生成。这是我们帮助用户理解网络内容来源与编辑方式的重要一步。
立即体验Gemini Omni
从今天起,Omni家族的首个模型Gemini Omni Flash已全面上线。全球范围内的Google AI Plus、Pro及Ultra订阅用户,现在即可通过Gemini应用和Google Flow直接使用。从本周开始,YouTube Shorts和YouTube Create App的用户也可以免费体验这一功能。
在接下来的几周内,我们还将通过API向开发者和企业客户开放该模型,让更广泛的生态系统能够利用这一强大的创意工具。
Q&A
Q1:Gemini Omni能生成哪些类型的视频?
A:Gemini Omni目前核心支持视频生成与编辑。用户可以将图像、音频、视频和文字以任意形式组合作为输入,来生成高质量视频。未来它将逐步扩展至图像和音频等更多输出形式。其能力覆盖广泛,包括变换场景风格、调整物理模拟效果、进行多轮对话式精细编辑,以及基于草图或参考图像进行视频创作等。
Q2:Gemini Omni Flash现在如何获取?是否需要付费?
A:Gemini Omni Flash即日起面向全球的Google AI Plus、Pro和Ultra订阅用户开放,可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户从本周起可免费体验。未来数周内,开发者和企业客户也将能够通过API接入该模型。
Q3:Gemini Omni生成的视频如何防止被滥用?
A:所有由Gemini Omni生成的视频都会自动嵌入SynthID数字水印,这种水印对人眼不可见,但可通过技术手段进行识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索来验证视频是否为AI生成。此外,在权限控制上,Omni目前仅支持用户使用自己的声音创建数字分身视频;涉及更改他人音频和语音的功能,仍在以负责任的方式进行测试和评估,尚未开放。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。