菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 字节开源Bernini框架测评:AI视频编辑的智能理解方案
产业资讯 AI视频

字节开源Bernini框架测评:AI视频编辑的智能理解方案

2026-06-03
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

字节开源视频生成与编辑统一框架Bernini,核心思路是先让多模态大模型进行语义理解与规

AI视频编辑:先拆解语义,再精准执行

视频生成领域,创作者最常遇到的瓶颈并非画质,而是模型难以准确理解自然语言指令

想把晴天改为雪天,模型可能只在画面里堆叠雪花;想把动画嵌入商场LED屏,结果边缘扭曲、透视错位。核心痛点在于:AI视频生成能否在动工之前,先真正读懂创作者的意图?

近期,字节商业化技术团队发布了一项行业级开源方案——面向视频生成与编辑的统一框架:Bernini

设计哲学极简:由多模态大模型负责语义解析与规划,再交由扩散模型完成高保真视觉渲染。覆盖参考生成视频编辑等多类任务,核心关键词:可控性

例如调整整体视觉风格时,不仅能美化单帧,还能维持前后帧的时空一致性:

至此,AI视频生成从“听prompt随机输出”转向“先理解语义,再精准执行”。目前Bernini的推理代码与权重已开源。

一条指令操控视频编辑,Bernini实现「可控编辑」的实战突破

若过往视频生成模型偏向“按提示词一次成型”,Bernini则聚焦于一个更贴近工作流的难题——生成后如何迭代修改?

日常调整需求听起来简单,但对视频模型却是严峻挑战。因为视频编辑并非单帧修图,而是在连续画面中同时理解指令、保留主体与场景结构、维持运动轨迹。稍有不慎便会引发主体畸变、背景偏移、动作断裂、帧间闪烁等连锁问题。

Bernini的解法是将编辑流程清晰拆解。

可以把Bernini看作一个视频制作团队的“导演+后期”。导演角色由多模态大模型规划器MLLM-based planner担任,它先解析你的文本指令,同时理解源视频、参考图像与参考视频等素材,判断目标画面应具备的语义特征。规划完成后,再交由扩散模型DiT-based renderer执行视觉渲染,将语义蓝图转化为连续、稳定、高质量的视频帧。

Bernini框架的精妙之处在于职责分明:多模态大模型负责“想清楚”,Diffusion Transformer负责“画出来”。从文本到视频生成、视频编辑,再到基于图像和视频参考的复杂控制型生成,全部囊括。

这种分工让Bernini在可控视频编辑上展现出多项直观能力。

最基础的是一条指令切换天气、季节、材质与风格。例如同一段城市航拍视频,输入指令后可无缝切换为晴、雾、雨、雪。关键不只在于添加雪花或滤镜,而是同步调整天空、光照、路面、建筑表面及整体环境氛围,使天气变化真实融入原始场景:

更进一层,Bernini的语义编辑已触及「镜头语言」。

首先是可以控制画面关注区域的视角、焦点与动作。在视角编辑上,Bernini能解析场景的三维关系,使调整结果符合透视、结构与空间逻辑:

焦点编辑方面,Bernini能依据指令改变画面注意力区域,从而调整视频叙事重心。例如画面中存在多个物体,可使镜头聚焦于桌上的收音机,或从前景切换到背景:

视频创作中最易出bug的还有动作。许多AI视频静态尚可,一动就露马脚。值得关注的是,Bernini在保持主体身份与场景结构的前提下,能高精度地修改主体动作行为。下面这段棕熊视频,即便从普通状态改为起身跳舞、咆哮,环境光照与镜头关系依然稳定:

这意味着Bernini的编辑不只是让主体“动起来”,而是让动作变化“自然嵌入”原始画面。从反复抽卡到精准修改,AI视频终于开始具备后期软件的实用度。

引入参考素材,视频创作更可控、更一致

AIGC创作中另一个常见难题:难以用一句prompt准确描述想要的视觉效果。尤其是涉及具体材质、商品、电影色调,或需要植入屏幕内的视频素材时,极易翻车。

Bernini除了编辑能力,还提供了一项实用功能:支持图像视频作为编辑参考。它还能基于参考输入直接生成新视频,牢牢控制物体、角色与场景的一致性。

不止靠文本:用图片和视频作为编辑参考

先看Bernini参考生成的第一项能力——编辑参考。创作者可用视觉样例直接控制输出结果,广告创意、电商展示、影视预演、二次创作均可受益。

例如增加指定主体:只需提供一张狗狗参考图,视频中即可自然出现同款狗狗。再输入雪人图片,雪人也能平滑融入当前视频,光照、透视、边缘关系处理得非常自然:

除参考主体外,Bernini还能参考材质。输入布料、朱砂壶、大理石、金属等不同材质参考,原视频中的盘子即可被替换为对应纹理质感。材质变化会稳定附着于目标物体,不会在播放几帧后漂移、错位或失真:

风格参考同样出色。即便参考图涵盖卡通、写实、水墨、赛博朋克等截然不同的风格,Bernini也能提取风格特征并迁移到视频中。原始视频的主体与运动关系被高度保留,风格变化随时间轴稳定延续。

此外,Bernini还具备一类实用能力:图像与视频植入。街头灯箱、商场LED屏、地铁电视,乃至镜头中任意屏幕,均可变成展示位。Bernini能把一张海报或一段视频精准填入目标区域,并随原镜头移动,边界不破、透视不乱、时序不抖。例如给一段街头实拍提供一张油画图片,Bernini就能将油画自然嵌入招牌,画面融合度极高。

广告预览、影视预演、虚拟拍摄中,原本需要反复抠帧、跟踪、校透视的工作,现可被收进一次推理中。

从参考图生成视频:物体、角色与场景的高一致性

除了编辑已有视频,Bernini还支持基于参考图直接生成「新视频」。

先看单图参考生成:仅提供一张香水产品图,输入“生成一段产品展示视频”,模型即可生成真人手持香水转动的画面。瓶身轮廓、金色液体、黑色标贴等关键细节与原始图像保持高度一致。若换成运动头带,模型还能生成羊驼戴着头带站在沙漠中的画面。

同一能力,既可产出正经产品片,也可制作脑洞创意短片。

再进一步,Bernini可实现多元素组合参考生成。输入的参考图可以来自不同物体——一座大理石半身像、粉色猫耳耳机、黑色T恤、热带印花短裤,再配上落日海滩长椅。这些原本无关的素材,Bernini可将其组合成同一视频角色。

这种能力在IP联名、虚拟人塑造、广告概念片中极具价值:素材库中分散的元素可被重新组合为全新的角色与场景。

此外,Bernini还具备一项关键能力:同一物体的多角度参考。商品和角色很少只有一面——包有背带,车有尾灯,雕塑有侧脸与背面。若模型只见过正面,镜头一转便可能自由发挥。Bernini可接受同一物体的多张角度参考图,例如大理石雕塑的五张多角度参考,再生成连续镜头,雕塑从不同角度出现时,五官、肌肉走向、衣袍褶皱均保持高度一致。

最后是场景关键帧到连续镜头:给定同一办公区休息廊的几张关键帧(沙发、绿植、走廊尽头玻璃门),Bernini可生成连续平移镜头。这一步已接近更长期的世界模型能力,考验的不只是单帧质量,还包括模型对同一场景在连续镜头中空间关系的理解。虚拟漫游、游戏关卡生成、影视预演乃至具身智能模拟,未来都绕不开这种连续性。

从语义规划到视觉渲染,Bernini的核心:先理解,再生成

那么,Bernini为何能同时处理文本、视频、参考图,并产出更稳定的结果?

根本原因在于它并非让单个模型包揽一切,而是将任务拆解为两步。

第一步:语义规划,让模型先锁定目标。Bernini首先使用MLLM-based planner理解文本、视频与参考视觉输入,并在ViT embedding空间中预测目标语义表示。该语义表示可视为生成前的“语义草图”——不直接规定每个像素值,而是先描述清楚:目标视频应包含什么内容、结构如何变化、哪些元素需保留、哪些需被编辑。

第二步:视觉渲染,将语义转化为高质量视频。拿到语义规划后,DiT-based renderer负责生成最终画面。对于视频编辑任务,它还会结合源视频的VAE特征,尽可能保留原始画面中的细节与非编辑区域,避免一次修改就带跑整段画面。

还有一个关键痛点:多参考输入的区分。当多个参考图、源视频、目标视频被串进同一序列时,不同素材可能出现相同的时间和空间坐标,模型容易混淆。因此Bernini引入了Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)。它会给不同视觉片段附加各自的segment标记,让模型明确区分参考图、源视频与目标输出,同时保留时间与空间位置关系。

在字节商业化技术团队自建的Arena评测中,面对多款国内外主流闭源模型,这一开源框架已跻身第一梯队

归根结底,Bernini给创作者带来的最大实感并非画面更漂亮,而是让AIGC创作少了一些“玄学”。过去写长串prompt,AI未必理解;想改一个小细节,模型可能整条视频重来;给了参考图,它也可能只学到皮毛,最终主体、材质、风格全跑偏。

Bernini解决的正是这种创作中的失控感。它先剖析用户想要什么,理解原始视频中哪些内容需保留,也理解参考图片与视频提供的视觉信息。然后,将这种理解转化为可生成、可编辑、可稳定落地的视频结果。

减少反复碰运气,增加真正可控的创作空间——这正是Bernini最具价值的核心。它让创作者用自己的素材、自己的想法,探索AI视频创作如何更好用、更听话、更贴近真实工作流。

目前率先开源的Bernini-R,对应Bernini三阶段训练流程中的第二阶段模型。包含MLLM Planner的完整版本正在整理代码中,预计近期进一步开放。

参考链接:

GitHub:https://github.com/bytedance/Bernini

Hugging Face:https://huggingface.co/ByteDance/Bernini

Project Page:https://bernini-ai.github.io

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多