其他资讯

2024年谷歌Omni AI视频工具测评：如何用数字分身克隆自己

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

谷歌推出全新AI视频生成模型GeminiOmni，支持多模态输入并内置物理引擎以提升真实感。其数

谷歌最新发布的AI视频生成技术，为内容创作领域带来了双重影响：它既显著降低了高质量视频的制作门槛，也可能导致YouTube等平台涌现大量AI生成的同质化内容。

谷歌全新Omni AI视频工具：用数字分身克隆自己

谷歌正式推出Gemini Omni，标志着AI视频生成技术进入新阶段。谷歌将此次发布的战略意义，与当年Nano Banana在AI图像生成领域引发的变革相提并论。如果说Nano Banana重新定义了图像生成的边界，那么Omni的目标是在视频领域实现同等量级的突破。该模型已从发布之日起开始分阶段部署。

谷歌将Omni定义为“Gemini推理能力与创造性输出的融合体”。官方描述指出，“Omni能够接受图像、音频、视频和文本作为输入，并利用Gemini对真实世界的知识理解，生成高质量视频输出。”尽管当前版本“以视频生成为核心”，但其底层架构支持“从任意模态输入生成任意内容”，预示着未来将扩展至更广泛的媒体生成类型。

Omni将提供不同性能层级的版本，首发的是Gemini Omni Flash。该功能将逐步在Gemini应用、Google Flow以及YouTube Shorts中上线。目前，网页版Gemini是否原生集成Omni，或用户是否必须通过Flow界面访问，仍有待明确。

数字分身功能：机遇还是隐患？

这一功能引发了复杂的讨论：它究竟是革命性的创作工具、潜在的隐私风险，还是低质量内容的流水线？谷歌介绍，用户可通过“Avatars（数字化身）”功能，创建自己的数字副本，生成在视觉和听觉上都高度仿真的个人化视频。

对视频创作者而言，其吸引力显而易见。设想在状态不佳时——无论是形象欠佳、嗓音不适，还是单纯不想出镜——你可以将脚本交由数字分身处理，由“AI替身”完成出镜录制。观众能否分辨？他们是否介意？这无疑是一个值得尝试的创作路径，但或许不应完全取代真人出镜。亲自面对镜头是锻炼表达与镜头感的关键过程，完全依赖数字替身虽提升了效率，却也放弃了宝贵的实战训练机会。

需要关注的是，谷歌特别说明，所有由Omni生成的视频都将内置SynthID数字水印，以便进行来源验证。谷歌同时表示：“在涉及通过编辑来改变视频音频与语音的领域，我们仍在进行严格测试，致力于以负责任的方式推进该功能的发布。”

物理引擎加持，视频生成更真实

回顾早期电子游戏，角色动作往往生硬失真。随着物理引擎的普及，虚拟角色的行为开始符合现实世界的力学规律。Omni将这一理念引入了视频生成。据谷歌披露，Omni具备“对重力、动能、流体动力学等物理原理的直观理解”，并借助Gemini的知识图谱，“以超越简单模式匹配的方式，深度关联语言、图像与语义信息”。

谷歌演示表明，Omni能够从简短的文本提示出发，生成细节丰富的视频片段，并能制作用于解释复杂概念的解说类视频。这一点颇具潜力——NotebookLM已有的音频与视频摘要功能，已展现出强大的概念解构能力。若将此类技术整合进Omni，其结果值得期待。

实际测试显示，将营销文档或产品规格表导入NotebookLM，它能在极短时间内生成多个功能解说视频，其效率远超人工制作，极大加速了产品发布流程，尽管早期版本的视觉保真度仍有提升空间。

多模态输入，风格自由定制

Nano Banana早期的一个标志性能力是图像情境重设。例如，用户可以将一张普通的公园散步照片，转化为身着类似海军制服装束、置身航母舰桥的场景，尽管部分细节存在偏差，但人物的面部特征与体型得到了相当准确的保持。

Omni计划将这种能力扩展到视频维度，允许将图像、文本、视频或音频输入转化为“叙事连贯的视觉输出”。目前音频输入仅支持语音录音，但谷歌承诺将“尽快扩展对其他音频类型的支持”。此外，用户可以构建场景、匹配特定视觉风格、使用自然语言描述需求，并确保视频中角色形象始终保持一致。

自然语言驱动视频剪辑

视频制作中最繁琐的环节通常是后期剪辑，往往需要投入大量时间与精力。Omni为此提供了一种革新方案——“通过自然语言指令编辑视频，每条新指令都基于上一条的上下文延续，确保角色一致性、物理效果合理运作，且场景记忆得以保持”。

谷歌进一步说明，用户可以对视频中的特定元素进行修改。若能导入一段素材，并指令编辑器自动移除遮挡物、替换物体或更改背景，其应用价值将非常显著。目前，单次处理视频的时长限制，以及不同服务套餐下的编辑功能边界尚未完全公开，但这些可能性已足够引人关注。

此外，谷歌透露新版Omni还具备两项额外的格式转换能力，但具体支持的视频格式与最高分辨率规格——例如是支持4K/8K的专业级输出，还是主要适配YouTube Shorts的移动端格式——仍有待后续公布。

能否成为专业创作者的利器？

当OpenAI发布Sora时，它更像是一次技术演示，并未真正融入专业视频制作的工作流。Omni的数字分身与对象替换功能固然有趣，但行业更关心的是，这些能力能否与Final Cut Pro、Adobe Premiere Pro、DaVinci Resolve等主流专业软件集成，或至少允许这些工具调用Omni的处理结果。

这种集成并非空想——Omni的部分功能已开始通过谷歌API向企业用户和开发者提供。

另一个关键问题是，Omni生成的视频是否会像Nano Banana的图像那样，在角落嵌入小型菱形水印？水印有助于标识内容来源，但也会影响其在专业场景下的直接使用。未来是否会推出可去除水印的付费方案？是否会出现第三方工具来移除水印？这些问题都需要时间给出答案。

Q&A

Q1：Gemini Omni是什么？它和普通AI视频生成工具有什么不同？

A：Gemini Omni是谷歌推出的新一代多模态AI视频生成模型。其核心差异在于深度融合了Gemini的复杂推理能力与视频创作流程。它支持图像、音频、视频、文本混合输入，集成了模拟真实物理规律的引擎，并允许用户使用自然语言进行非线性编辑。相较于传统工具，Omni更注重长视频的叙事连贯性、角色一致性以及对深层语义的理解，其定位更偏向于专业级的创作辅助平台。

Q2：Gemini Omni的数字分身（Avatar）功能是怎么运作的？有没有安全保障？

A：Avatar功能允许用户授权创建个人的数字化身，用于生成音画同步的仿真视频。为应对潜在滥用，谷歌在所有Omni生成的视频中嵌入了SynthID隐形数字水印，以便进行来源追溯和真实性验证。谷歌也明确表示，涉及深度修改人物语音与口型的编辑功能目前仍处于受限测试阶段，公司正以审慎的态度推进其安全部署。

Q3：Gemini Omni现在可以在哪里使用？是否对普通用户开放？

A：Gemini Omni目前已启动分阶段推送，首发的Gemini Omni Flash版本将陆续在Gemini移动应用、Google Flow及YouTube Shorts中提供。同时，其核心能力已通过谷歌API面向企业客户和开发者开放。对于普通用户，完整的体验路径（例如是否可通过网页版Gemini直接使用）仍需等待后续的官方更新与公告。

来源：互联网

上一篇 华富基金重仓拓维信息浮亏超千万，股价下跌3.12%引关注 下一篇 华夏基金持仓同方股份浮亏分析：十大股东持股913万股亏损逾237万

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。