产业资讯 AI视频

字节开源Bernini框架测评：AI视频编辑的智能理解方案

2026-06-03

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

字节开源视频生成与编辑统一框架Bernini，核心思路是先让多模态大模型进行语义理解与规

AI视频编辑：先拆解语义，再精准执行

视频生成领域，创作者最常遇到的瓶颈并非画质，而是模型难以准确理解自然语言指令。

想把晴天改为雪天，模型可能只在画面里堆叠雪花；想把动画嵌入商场LED屏，结果边缘扭曲、透视错位。核心痛点在于：AI视频生成能否在动工之前，先真正读懂创作者的意图？

近期，字节商业化技术团队发布了一项行业级开源方案——面向视频生成与编辑的统一框架：Bernini。

设计哲学极简：由多模态大模型负责语义解析与规划，再交由扩散模型完成高保真视觉渲染。覆盖参考生成、视频编辑等多类任务，核心关键词：可控性。

例如调整整体视觉风格时，不仅能美化单帧，还能维持前后帧的时空一致性：

至此，AI视频生成从“听prompt随机输出”转向“先理解语义，再精准执行”。目前Bernini的推理代码与权重已开源。

一条指令操控视频编辑，Bernini实现「可控编辑」的实战突破

若过往视频生成模型偏向“按提示词一次成型”，Bernini则聚焦于一个更贴近工作流的难题——生成后如何迭代修改？

日常调整需求听起来简单，但对视频模型却是严峻挑战。因为视频编辑并非单帧修图，而是在连续画面中同时理解指令、保留主体与场景结构、维持运动轨迹。稍有不慎便会引发主体畸变、背景偏移、动作断裂、帧间闪烁等连锁问题。

Bernini的解法是将编辑流程清晰拆解。

可以把Bernini看作一个视频制作团队的“导演+后期”。导演角色由多模态大模型规划器MLLM-based planner担任，它先解析你的文本指令，同时理解源视频、参考图像与参考视频等素材，判断目标画面应具备的语义特征。规划完成后，再交由扩散模型DiT-based renderer执行视觉渲染，将语义蓝图转化为连续、稳定、高质量的视频帧。

Bernini框架的精妙之处在于职责分明：多模态大模型负责“想清楚”，Diffusion Transformer负责“画出来”。从文本到视频生成、视频编辑，再到基于图像和视频参考的复杂控制型生成，全部囊括。

这种分工让Bernini在可控视频编辑上展现出多项直观能力。

最基础的是一条指令切换天气、季节、材质与风格。例如同一段城市航拍视频，输入指令后可无缝切换为晴、雾、雨、雪。关键不只在于添加雪花或滤镜，而是同步调整天空、光照、路面、建筑表面及整体环境氛围，使天气变化真实融入原始场景：

更进一层，Bernini的语义编辑已触及「镜头语言」。

首先是可以控制画面关注区域的视角、焦点与动作。在视角编辑上，Bernini能解析场景的三维关系，使调整结果符合透视、结构与空间逻辑：

在焦点编辑方面，Bernini能依据指令改变画面注意力区域，从而调整视频叙事重心。例如画面中存在多个物体，可使镜头聚焦于桌上的收音机，或从前景切换到背景：

视频创作中最易出bug的还有动作。许多AI视频静态尚可，一动就露马脚。值得关注的是，Bernini在保持主体身份与场景结构的前提下，能高精度地修改主体动作行为。下面这段棕熊视频，即便从普通状态改为起身跳舞、咆哮，环境光照与镜头关系依然稳定：

这意味着Bernini的编辑不只是让主体“动起来”，而是让动作变化“自然嵌入”原始画面。从反复抽卡到精准修改，AI视频终于开始具备后期软件的实用度。

引入参考素材，视频创作更可控、更一致

AIGC创作中另一个常见难题：难以用一句prompt准确描述想要的视觉效果。尤其是涉及具体材质、商品、电影色调，或需要植入屏幕内的视频素材时，极易翻车。

Bernini除了编辑能力，还提供了一项实用功能：支持图像与视频作为编辑参考。它还能基于参考输入直接生成新视频，牢牢控制物体、角色与场景的一致性。

不止靠文本：用图片和视频作为编辑参考

先看Bernini参考生成的第一项能力——编辑参考。创作者可用视觉样例直接控制输出结果，广告创意、电商展示、影视预演、二次创作均可受益。

例如增加指定主体：只需提供一张狗狗参考图，视频中即可自然出现同款狗狗。再输入雪人图片，雪人也能平滑融入当前视频，光照、透视、边缘关系处理得非常自然：

除参考主体外，Bernini还能参考材质。输入布料、朱砂壶、大理石、金属等不同材质参考，原视频中的盘子即可被替换为对应纹理质感。材质变化会稳定附着于目标物体，不会在播放几帧后漂移、错位或失真：

风格参考同样出色。即便参考图涵盖卡通、写实、水墨、赛博朋克等截然不同的风格，Bernini也能提取风格特征并迁移到视频中。原始视频的主体与运动关系被高度保留，风格变化随时间轴稳定延续。

此外，Bernini还具备一类实用能力：图像与视频植入。街头灯箱、商场LED屏、地铁电视，乃至镜头中任意屏幕，均可变成展示位。Bernini能把一张海报或一段视频精准填入目标区域，并随原镜头移动，边界不破、透视不乱、时序不抖。例如给一段街头实拍提供一张油画图片，Bernini就能将油画自然嵌入招牌，画面融合度极高。

广告预览、影视预演、虚拟拍摄中，原本需要反复抠帧、跟踪、校透视的工作，现可被收进一次推理中。

从参考图生成视频：物体、角色与场景的高一致性

除了编辑已有视频，Bernini还支持基于参考图直接生成「新视频」。

先看单图参考生成：仅提供一张香水产品图，输入“生成一段产品展示视频”，模型即可生成真人手持香水转动的画面。瓶身轮廓、金色液体、黑色标贴等关键细节与原始图像保持高度一致。若换成运动头带，模型还能生成羊驼戴着头带站在沙漠中的画面。

同一能力，既可产出正经产品片，也可制作脑洞创意短片。

再进一步，Bernini可实现多元素组合参考生成。输入的参考图可以来自不同物体——一座大理石半身像、粉色猫耳耳机、黑色T恤、热带印花短裤，再配上落日海滩长椅。这些原本无关的素材，Bernini可将其组合成同一视频角色。

这种能力在IP联名、虚拟人塑造、广告概念片中极具价值：素材库中分散的元素可被重新组合为全新的角色与场景。

此外，Bernini还具备一项关键能力：同一物体的多角度参考。商品和角色很少只有一面——包有背带，车有尾灯，雕塑有侧脸与背面。若模型只见过正面，镜头一转便可能自由发挥。Bernini可接受同一物体的多张角度参考图，例如大理石雕塑的五张多角度参考，再生成连续镜头，雕塑从不同角度出现时，五官、肌肉走向、衣袍褶皱均保持高度一致。

最后是场景关键帧到连续镜头：给定同一办公区休息廊的几张关键帧（沙发、绿植、走廊尽头玻璃门），Bernini可生成连续平移镜头。这一步已接近更长期的世界模型能力，考验的不只是单帧质量，还包括模型对同一场景在连续镜头中空间关系的理解。虚拟漫游、游戏关卡生成、影视预演乃至具身智能模拟，未来都绕不开这种连续性。

从语义规划到视觉渲染，Bernini的核心：先理解，再生成

那么，Bernini为何能同时处理文本、视频、参考图，并产出更稳定的结果？

根本原因在于它并非让单个模型包揽一切，而是将任务拆解为两步。

第一步：语义规划，让模型先锁定目标。Bernini首先使用MLLM-based planner理解文本、视频与参考视觉输入，并在ViT embedding空间中预测目标语义表示。该语义表示可视为生成前的“语义草图”——不直接规定每个像素值，而是先描述清楚：目标视频应包含什么内容、结构如何变化、哪些元素需保留、哪些需被编辑。

第二步：视觉渲染，将语义转化为高质量视频。拿到语义规划后，DiT-based renderer负责生成最终画面。对于视频编辑任务，它还会结合源视频的VAE特征，尽可能保留原始画面中的细节与非编辑区域，避免一次修改就带跑整段画面。

还有一个关键痛点：多参考输入的区分。当多个参考图、源视频、目标视频被串进同一序列时，不同素材可能出现相同的时间和空间坐标，模型容易混淆。因此Bernini引入了Segment-Aware 3D Rotary Positional Embedding（SA-3D RoPE）。它会给不同视觉片段附加各自的segment标记，让模型明确区分参考图、源视频与目标输出，同时保留时间与空间位置关系。

在字节商业化技术团队自建的Arena评测中，面对多款国内外主流闭源模型，这一开源框架已跻身第一梯队。

归根结底，Bernini给创作者带来的最大实感并非画面更漂亮，而是让AIGC创作少了一些“玄学”。过去写长串prompt，AI未必理解；想改一个小细节，模型可能整条视频重来；给了参考图，它也可能只学到皮毛，最终主体、材质、风格全跑偏。

Bernini解决的正是这种创作中的失控感。它先剖析用户想要什么，理解原始视频中哪些内容需保留，也理解参考图片与视频提供的视觉信息。然后，将这种理解转化为可生成、可编辑、可稳定落地的视频结果。

减少反复碰运气，增加真正可控的创作空间——这正是Bernini最具价值的核心。它让创作者用自己的素材、自己的想法，探索AI视频创作如何更好用、更听话、更贴近真实工作流。

目前率先开源的Bernini-R，对应Bernini三阶段训练流程中的第二阶段模型。包含MLLM Planner的完整版本正在整理代码中，预计近期进一步开放。

参考链接：

GitHub：https://github.com/bytedance/Bernini

Hugging Face：https://huggingface.co/ByteDance/Bernini

Project Page：https://bernini-ai.github.io

来源：互联网

上一篇 2025软件股AI恐慌后强势反弹领涨美股精选榜 下一篇 纯血AI公司市值排行榜：谁是下一个万亿巨头

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。