字节跳动开源Bernini:视频生成与精准编辑利器
摘要
字节跳动商业化技术团队日前开源了视频生成与编辑框架Bernini,其核心思路在于“先理解
字节跳动商业化技术团队日前开源了视频生成与编辑框架Bernini,其核心思路在于“先理解语义、再生成画面”的协同机制——让模型精准解析复杂指令后,输出稳定连贯的视频内容。传统模型常因指令模糊导致画面失控与帧间闪烁,Bernini正是针对这些痛点进行优化。
据字节内部测试,Bernini的性能已稳定在行业第一梯队。推理代码与第二阶段模型Bernini-R现已开放权限,待全功能版本发布即可全面投入实际应用。

分离语义与渲染
Bernini在工作流程上实现了巧妙拆解:将视频生成过程分为“语义规划”与“视觉渲染”两个独立阶段。多模态大模型规划器首先深度解析输入内容,生成一份语义草图;渲染器再依据该草图输出稳定、连续的最终画面。
这种清晰的分工赋予可控编辑极高的实用价值。仅需一条简单指令,画面中的天气、季节与视觉风格即可自然过渡,镜头角度、焦点及主体动作也能被精确调控。相当于将视频创作中的“构思”与“绘制”分派给两位专家协作,效果远优于单一模型的全能方案。
丰富视觉参考维度
除文字指令外,Bernini还支持以图片或视频作为视觉参考,显著提升创作一致性。在视频编辑场景中,用户可将特定材质或海报精准植入目标区域,边界无破损、透视无偏差,效果宛若原生嵌入。
在新视频生成方面,该模型不仅支持单图与多角度参考生成,还能实现从关键帧到连续镜头的自然演进。团队还专门引入了专属位置编码机制,解决多视觉片段串联时的混淆问题——确保参考素材与输出目标清晰区分,避免紊乱。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。