产业资讯字节跳动

字节跳动开源Bernini：视频生成与精准编辑利器

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

字节跳动商业化技术团队日前开源了视频生成与编辑框架Bernini，其核心思路在于“先理解

字节跳动商业化技术团队日前开源了视频生成与编辑框架Bernini，其核心思路在于“先理解语义、再生成画面”的协同机制——让模型精准解析复杂指令后，输出稳定连贯的视频内容。传统模型常因指令模糊导致画面失控与帧间闪烁，Bernini正是针对这些痛点进行优化。

据字节内部测试，Bernini的性能已稳定在行业第一梯队。推理代码与第二阶段模型Bernini-R现已开放权限，待全功能版本发布即可全面投入实际应用。

Bernini在工作流程上实现了巧妙拆解：将视频生成过程分为“语义规划”与“视觉渲染”两个独立阶段。多模态大模型规划器首先深度解析输入内容，生成一份语义草图；渲染器再依据该草图输出稳定、连续的最终画面。

这种清晰的分工赋予可控编辑极高的实用价值。仅需一条简单指令，画面中的天气、季节与视觉风格即可自然过渡，镜头角度、焦点及主体动作也能被精确调控。相当于将视频创作中的“构思”与“绘制”分派给两位专家协作，效果远优于单一模型的全能方案。

除文字指令外，Bernini还支持以图片或视频作为视觉参考，显著提升创作一致性。在视频编辑场景中，用户可将特定材质或海报精准植入目标区域，边界无破损、透视无偏差，效果宛若原生嵌入。

在新视频生成方面，该模型不仅支持单图与多角度参考生成，还能实现从关键帧到连续镜头的自然演进。团队还专门引入了专属位置编码机制，解决多视觉片段串联时的混淆问题——确保参考素材与输出目标清晰区分，避免紊乱。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。