2024年谷歌Omni AI视频工具测评:如何用数字分身克隆自己
摘要
谷歌推出全新AI视频生成模型GeminiOmni,支持多模态输入并内置物理引擎以提升真实感。其数
谷歌最新发布的AI视频生成技术,为内容创作领域带来了双重影响:它既显著降低了高质量视频的制作门槛,也可能导致YouTube等平台涌现大量AI生成的同质化内容。

谷歌正式推出Gemini Omni,标志着AI视频生成技术进入新阶段。谷歌将此次发布的战略意义,与当年Nano Banana在AI图像生成领域引发的变革相提并论。如果说Nano Banana重新定义了图像生成的边界,那么Omni的目标是在视频领域实现同等量级的突破。该模型已从发布之日起开始分阶段部署。
谷歌将Omni定义为“Gemini推理能力与创造性输出的融合体”。官方描述指出,“Omni能够接受图像、音频、视频和文本作为输入,并利用Gemini对真实世界的知识理解,生成高质量视频输出。”尽管当前版本“以视频生成为核心”,但其底层架构支持“从任意模态输入生成任意内容”,预示着未来将扩展至更广泛的媒体生成类型。
Omni将提供不同性能层级的版本,首发的是Gemini Omni Flash。该功能将逐步在Gemini应用、Google Flow以及YouTube Shorts中上线。目前,网页版Gemini是否原生集成Omni,或用户是否必须通过Flow界面访问,仍有待明确。
数字分身功能:机遇还是隐患?
这一功能引发了复杂的讨论:它究竟是革命性的创作工具、潜在的隐私风险,还是低质量内容的流水线?谷歌介绍,用户可通过“Avatars(数字化身)”功能,创建自己的数字副本,生成在视觉和听觉上都高度仿真的个人化视频。
对视频创作者而言,其吸引力显而易见。设想在状态不佳时——无论是形象欠佳、嗓音不适,还是单纯不想出镜——你可以将脚本交由数字分身处理,由“AI替身”完成出镜录制。观众能否分辨?他们是否介意?这无疑是一个值得尝试的创作路径,但或许不应完全取代真人出镜。亲自面对镜头是锻炼表达与镜头感的关键过程,完全依赖数字替身虽提升了效率,却也放弃了宝贵的实战训练机会。
需要关注的是,谷歌特别说明,所有由Omni生成的视频都将内置SynthID数字水印,以便进行来源验证。谷歌同时表示:“在涉及通过编辑来改变视频音频与语音的领域,我们仍在进行严格测试,致力于以负责任的方式推进该功能的发布。”
物理引擎加持,视频生成更真实
回顾早期电子游戏,角色动作往往生硬失真。随着物理引擎的普及,虚拟角色的行为开始符合现实世界的力学规律。Omni将这一理念引入了视频生成。据谷歌披露,Omni具备“对重力、动能、流体动力学等物理原理的直观理解”,并借助Gemini的知识图谱,“以超越简单模式匹配的方式,深度关联语言、图像与语义信息”。
谷歌演示表明,Omni能够从简短的文本提示出发,生成细节丰富的视频片段,并能制作用于解释复杂概念的解说类视频。这一点颇具潜力——NotebookLM已有的音频与视频摘要功能,已展现出强大的概念解构能力。若将此类技术整合进Omni,其结果值得期待。
实际测试显示,将营销文档或产品规格表导入NotebookLM,它能在极短时间内生成多个功能解说视频,其效率远超人工制作,极大加速了产品发布流程,尽管早期版本的视觉保真度仍有提升空间。
多模态输入,风格自由定制
Nano Banana早期的一个标志性能力是图像情境重设。例如,用户可以将一张普通的公园散步照片,转化为身着类似海军制服装束、置身航母舰桥的场景,尽管部分细节存在偏差,但人物的面部特征与体型得到了相当准确的保持。
Omni计划将这种能力扩展到视频维度,允许将图像、文本、视频或音频输入转化为“叙事连贯的视觉输出”。目前音频输入仅支持语音录音,但谷歌承诺将“尽快扩展对其他音频类型的支持”。此外,用户可以构建场景、匹配特定视觉风格、使用自然语言描述需求,并确保视频中角色形象始终保持一致。
自然语言驱动视频剪辑
视频制作中最繁琐的环节通常是后期剪辑,往往需要投入大量时间与精力。Omni为此提供了一种革新方案——“通过自然语言指令编辑视频,每条新指令都基于上一条的上下文延续,确保角色一致性、物理效果合理运作,且场景记忆得以保持”。
谷歌进一步说明,用户可以对视频中的特定元素进行修改。若能导入一段素材,并指令编辑器自动移除遮挡物、替换物体或更改背景,其应用价值将非常显著。目前,单次处理视频的时长限制,以及不同服务套餐下的编辑功能边界尚未完全公开,但这些可能性已足够引人关注。
此外,谷歌透露新版Omni还具备两项额外的格式转换能力,但具体支持的视频格式与最高分辨率规格——例如是支持4K/8K的专业级输出,还是主要适配YouTube Shorts的移动端格式——仍有待后续公布。
能否成为专业创作者的利器?
当OpenAI发布Sora时,它更像是一次技术演示,并未真正融入专业视频制作的工作流。Omni的数字分身与对象替换功能固然有趣,但行业更关心的是,这些能力能否与Final Cut Pro、Adobe Premiere Pro、DaVinci Resolve等主流专业软件集成,或至少允许这些工具调用Omni的处理结果。
这种集成并非空想——Omni的部分功能已开始通过谷歌API向企业用户和开发者提供。
另一个关键问题是,Omni生成的视频是否会像Nano Banana的图像那样,在角落嵌入小型菱形水印?水印有助于标识内容来源,但也会影响其在专业场景下的直接使用。未来是否会推出可去除水印的付费方案?是否会出现第三方工具来移除水印?这些问题都需要时间给出答案。
Q&A
Q1:Gemini Omni是什么?它和普通AI视频生成工具有什么不同?
A:Gemini Omni是谷歌推出的新一代多模态AI视频生成模型。其核心差异在于深度融合了Gemini的复杂推理能力与视频创作流程。它支持图像、音频、视频、文本混合输入,集成了模拟真实物理规律的引擎,并允许用户使用自然语言进行非线性编辑。相较于传统工具,Omni更注重长视频的叙事连贯性、角色一致性以及对深层语义的理解,其定位更偏向于专业级的创作辅助平台。
Q2:Gemini Omni的数字分身(Avatar)功能是怎么运作的?有没有安全保障?
A:Avatar功能允许用户授权创建个人的数字化身,用于生成音画同步的仿真视频。为应对潜在滥用,谷歌在所有Omni生成的视频中嵌入了SynthID隐形数字水印,以便进行来源追溯和真实性验证。谷歌也明确表示,涉及深度修改人物语音与口型的编辑功能目前仍处于受限测试阶段,公司正以审慎的态度推进其安全部署。
Q3:Gemini Omni现在可以在哪里使用?是否对普通用户开放?
A:Gemini Omni目前已启动分阶段推送,首发的Gemini Omni Flash版本将陆续在Gemini移动应用、Google Flow及YouTube Shorts中提供。同时,其核心能力已通过谷歌API面向企业客户和开发者开放。对于普通用户,完整的体验路径(例如是否可通过网页版Gemini直接使用)仍需等待后续的官方更新与公告。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。