AI电影能力评估:复旦港大阿里联合发布评测工具
摘要
影院灯光暗下,故事在银幕上展开。远景呈现一座陌生城市的全貌,城市喧嚣声渐起;镜头
影院灯光暗下,故事在银幕上展开。远景呈现一座陌生城市的全貌,城市喧嚣声渐起;镜头推进,角色表情的特写伴随背景音乐的切换;紧接着,演员开口说话,唇形与声音精准同步。这短短几十秒,凝结了导演、摄影师、音响师多年的专业协作。
如今,AI正尝试完成同样的任务。这不再是一张静态图片或一段五秒短视频的生成,而是直接创作一部长片——拥有完整叙事脉络、多个镜头衔接、同步音效与对白的“微电影”式短片。这项技术被研究者定义为“多镜头音视频生成”(Multi-Shot Audio-Video,简称MSA V)。OpenAI的Sora 2、阿里巴巴的Wan 2.7、字节跳动的Seedance 2.0,均已向这一方向演进。
核心难题随之浮现:当AI声称自己能“拍电影”时,如何客观评判其成果?过去用于评价单张图片或几秒短视频的标准,在此完全失效。仅凭“画面清晰度”无法衡量一部具备叙事逻辑的多镜头短片是否成功。这好比用尺子量身高——工具本身没错,但用错了衡量对象。
为填补这一评估空白,一支来自复旦大学、香港大学、阿里巴巴通义实验室、浙江大学和北京大学的研究团队,投入大量资源,构建了一套专用评测体系——MSA VBench。这是目前首个专为多镜头音视频生成设计的综合性评测基准,如同一位资深电影评审,具备一套完整的评分标准,能够从多个维度、多个层面,系统性地为AI导演打分。
一、为何现有“标尺”全都不够用
在MSA VBench问世之前,研究界已存在多种评测工具。但这些工具如同仅能测量特定部位的专业量具——有的只能测身高,有的只能测体重,缺乏一个能全面衡量的综合系统。
早期的评测基准,如VBench、EvalCrafter和Video-Bench,主要聚焦于单镜头视频生成,普遍忽略音频评估。换言之,它们只关注AI是否“画”好了一张动图,完全无视声音匹配与故事完整性。随后出现的多镜头视频评测工具,如ViStoryBench和MSVBench,开始关注跨镜头的叙事连贯性,但几乎完全摒弃了音频维度——如同评价一部电影只看画面,将声音全部静音。另一方面,A VGen-Bench等工具虽同时评估音视频,但主要处理单镜头或简单场景,无法应对包含十几个镜头、多角色轮流对话、背景音乐贯穿始终的复杂短片。
这两大硬伤,可概括为“评得不全”与“评得不准”。
“评得不全”意味着现有工具忽视了大量关键能力。没有任何工具能同时评估:视频的叙事逻辑、画面与声音的同步精度、镜头语言的专业性(如特写、远景、俯拍、推镜等),以及根据参考图像或音频生成相应内容的能力。更没有工具能处理涉及虚构场景、反常识内容(如“一片会微笑的吐司面包”)或十几个连续镜头的复杂任务。
“评得不准”则是一个更隐蔽的问题。由于生成视频的镜头切换时机往往不规律,自动拆分镜头的工具极易发生错误。一旦切错,后续所有评分都会产生系统性偏差——如同给一段乐谱打分,但谱子顺序已乱,每个音符都落在错误位置。此外,对于需要主观判断的维度(如叙事是否连贯、布局是否合理),直接让AI模型给出一个分数,不仅稳定性差,还容易出现“一本正经地胡说八道”的情况。
MSA VBench的诞生,正是为了同时解决这两个核心问题。
二、这套“评分系统”究竟如何构建
MSA VBench首先需要一套测试题库——即一系列精心设计的提示词,要求AI“去拍摄这样一部短片”。设计这套题库,研究团队投入了大量精力。
整套题库最终包含286道题(即286个提示词),对应2198个独立镜头。每道题都是一个完整的短片创作指令,详细描述了视频的整体风格、每个镜头的场景、摄影手法、音频要求以及人物对话内容。平均每道题要求AI生成7.7个镜头,最多的一道题要求生成15个连续镜头——这已是一个相当复杂的叙事结构。
题库的设计围绕四个核心维度展开。第一个维度是视频内容,涵盖8大类型,从动作场面、叙事短片、教程演示、演唱表演,到多人对话、科学实验、广告创意、自然风光,几乎覆盖了日常能想到的所有视频形式。同时,题目还要求AI展现不同的视觉风格,包括写实照片风格、动漫风格、水彩手绘风格、像素艺术、赛博朋克风格和复古胶片风格。第二个维度是音频内容,包括语音对话、演唱、乐器演奏、环境音效、自然环境音,乃至几种音效混合出现的复杂情况。此外,题目还覆盖了7种情绪(快乐、恐惧、愤怒、惊讶、悲伤、中性、敬畏)和6种语言(中文、英文、日语、韩语、西班牙语、法语)。第三个维度是专业的镜头语言,包括特写、远景、极端特写等5种景别,俯拍、仰拍、侧拍等5种拍摄角度,推拉、横移、跟踪、手持晃动等4种运镜方式,以及硬切、溶解、匹配剪辑、淡入淡出等4种转场类型。第四个维度是参考素材,为96道题提供了参考图片或音频——例如提供一张角色照片,要求AI在视频中保持该角色的外貌特征;或提供一段声音样本,要求AI在视频中使用该声音的音色。
题库的另一个特色是专门设计了“难题”。一部分题目要求AI生成涉及反常识内容的场景,例如“一片会微笑的吐司”或“冰冻的热带沙漠”——这类场景在真实世界中不存在,AI必须严格按照文字描述生成,而不能偷懒套用训练数据中常见的场景。另外,题目中有超过三分之一要求画面中同时出现多个主体,其中10%以上要求同时出现5个或更多主体——这对AI的构图和叙事能力都是极大的考验。
为保证题库质量,研究团队采用了四步流程。第一步,六位领域专家共同设计了八大类、144个细分子类的内容分类体系,并整理了可供组合的主体、场景和视觉风格清单。第二步,使用GPT-5.4随机抽取“主题+主体+场景+风格”的组合,生成初始提示词,再通过一个专门的“提示词增强模型”将这些初始版本改写成详细的、包含完整镜头语言的专业脚本。第三步,六位专家对生成的2200份脚本逐一审核,筛除重复雷同、逻辑不通或措辞模糊的案例,最终保留286份高质量题目,保留率仅有13%,可见筛选之严格。第四步,从公开数据集中收集了1000张角色图像和配对音频,以及200张背景图片,经过AI辅助分类和专家人工筛选,最终选出68张角色图片、65段配对音频和32张场景图片作为参考素材。
三、如何评判一部“AI短片”的好坏
有了测试题库,还需一套评分标准。MSA VBench的评分体系分为四个层次,共20个评估指标,覆盖从全局故事到单个镜头内部的各个层面。
最顶层是全局层面的评估,关注整部短片作为一个整体的表现。这里有五个指标。叙事连贯性考察整个故事的逻辑性,事件的顺序是否合理,前因后果是否说得通。唇语同步性则像一位专业声优导演,逐帧检查视频中人物说话时嘴唇的动作是否与声音完全匹配。声源归属性考察当画面中有多个人,音频中有不同说话声时,哪个声音来自哪个人是否对应准确。音视频同步性关注声音事件与对应视觉事件在时间上是否对齐,例如钢琴键按下的瞬间与琴声响起之间是否有延迟。视觉质量则综合评估画面的整体细腻程度和忠实于提示词的程度。
第二层是跨镜头层面的评估,关注不同镜头之间的一致性和连贯性。跨镜头布局一致性检查当镜头切换时,主要人物的位置、朝向、比例是否保持合理;视觉一致性则进一步细分为五个子指标,分别考察角色外貌、背景环境、视觉风格、光线照明和色调色彩在不同镜头之间是否前后一致;音乐一致性关注背景音乐的曲调、节奏是否贯穿全片保持稳定;说话人音色一致性则验证同一个角色在不同镜头里说话时,声音的音色是否始终如一。
第三层是单个镜头内部的评估,关注每个独立镜头自身的质量。镜头内布局文本对齐度检查镜头画面里的空间布局是否符合提示词的具体描述,例如提示词说“主角用左手握着电话”,镜头里是否真的用了左手;摄影参数符合度评估景别、拍摄角度、运镜方式是否按照提示词的要求执行;音频质量评估音频的声学品质;文本渲染准确性专门针对画面中需要出现文字的场景,检查文字是否被正确渲染;词错误率则将视频中的语音内容转录成文字,与提示词中要求说的台词对比,看有多少字说错了或说漏了。
第四层是参考素材层面的评估,关注AI是否忠实地再现了用户提供的参考内容。角色保真度衡量生成视频中的角色外貌是否与参考图片中的人物保持高度一致;声音保真度则衡量生成语音的音色是否与参考音频中的声音相符。
这20个指标最终被整合成11个评分维度,再取平均值,并乘以一个“完成率系数”——如果提示词要求10个镜头但AI只生成了7个,那么整体得分会按比例打折,以惩罚那些偷工减料的生成结果。
四、让评分更聪明:三种不同的打分策略
收集了20个指标之后,如何准确计算每个指标的分数,是另一个关键工程问题。MSA VBench为不同类型的指标设计了三种不同的打分策略,如同一个餐厅评审团,对厨师的刀工、口味和摆盘分别采用不同的评判方式。
第一种策略是使用专门的专家模型。对于那些定义清晰、有现成工具可以精确测量的指标,直接调用专业工具计算。音视频同步性使用Synchformer模型来测量音频和视频之间的时间偏差;唇语同步性依次使用LR-ASD(主动说话人检测)、SortFormer(说话人分类)和StableSyncNet(唇语同步评估)三个工具串联完成;音乐一致性使用Demucs先将音乐从混合音频中分离出来,再用MuQ计算音乐嵌入向量相似度,并用All-in-one工具分析节拍对齐情况;语音识别则根据语言选择FireRedASR2或Whisper-large-v3来完成。这种方式速度快、结果稳定,适合有明确量化标准的指标。
第二种策略是实例专属的评分细则。对于叙事连贯性、视觉质量、光线一致性、色调一致性和摄影参数符合度这些需要主观判断的指标,研究团队没有简单地让AI模型“你觉得好不好就打个分”,而是为每道题专门设计了一组选择题——也就是“评分细则”。AI模型需要回答这些预先设定好的问题,每道题都只有几个固定的答案选项,最终分数由回答正确的比例决定。这就像给厨师打分时,不是问评委“你觉得菜好吃吗请打1到10分”,而是问他一系列具体问题:“咸淡是否适中?食材是否新鲜?烹饪是否熟透?”这种方式更稳定,受提问方式的影响更小,也更难被AI的“胡言乱语”所干扰。
第三种策略是工具辅助的智能评分。对于跨镜头布局一致性和镜头内布局文本对齐度这两个复杂指标,AI模型不仅需要理解画面,还需要具体知道画面里有哪些物体、它们在哪里、人物的手势姿态是什么。为此,评分系统会自动调用物体检测工具(Grounding DINO)和姿态估计工具(BlazePose)来提取客观证据,再把这些证据交给AI模型做最终判断。这就像评委在打分之前,先让专业技术人员用设备扫描了菜品的成分构成,然后再根据这份客观报告来综合判断。
五、评分之前先把镜头切对——智能自我纠错机制
在正式评分之前,还有一个至关重要的预处理步骤:把生成的完整视频自动切分成独立的镜头片段。这个步骤听起来简单,实际上却是整个评测系统的“地基”——地基如果不稳,上面建再高的楼也会倒。
AI生成的视频里,镜头切换的时机往往不够清晰,有时候两个镜头之间的过渡非常平滑,工具很难判断到底在哪一帧发生了切换。研究团队发现,如果只是简单地使用TransNet V2这个标准工具切分镜头,切错的情况相当常见,一旦切错,后续所有需要按镜头计算的指标都会产生系统性偏差。
为了解决这个问题,研究团队引入了一个“智能自检流程”。首先,TransNet V2给出初始的切分结果;然后,一个大型视觉语言模型(使用的是Qwen3.5)逐一检查每个切分点,判断这些切分是否合理——是不是切多了?是不是切漏了?如果发现问题,它会自动调用工具来合并相邻片段或者在合适的位置再切一刀。整个自检过程最多进行两轮。如果两轮之后切分出来的镜头数量仍然与提示词要求的不一致,系统会进行最后一步补救:让AI模型重新比对每个切分片段与提示词中对应镜头的描述,丢弃那些明显不匹配的片段,确保用于评分的每个片段都有对应的参考依据。这就像一位严谨的剪辑师,在把影片送去评审之前,会反复检查每一个剪切点,确保画面的衔接符合剧本的安排。
六、这把“尺子”量得准吗?与人类评分的对比
研究团队自然需要验证这套评分体系是否可靠。他们招募了两组人类专家:第一组30人,负责对16个视频生成系统的整体质量进行两两比较,每人评估40对视频,合计完成1200次配对评判;第二组10人,专门针对叙事连贯性、跨镜头布局一致性和镜头内布局文本对齐度这三个最复杂的指标进行精细评判,每个指标完成360次配对评判。
最终,MSA VBench的整体评分排名与人类专家的评分排名之间,斯皮尔曼等级相关系数达到了0.915。这个数字越接近1.0,说明自动评分与人类判断越一致,0.915已经是相当高的水准,意味着这套自动评分工具的整体排名与人类的直觉判断高度吻合。
在三个最复杂的指标上,新方法相比直接让AI给分的旧方法,提升幅度尤为显著。在叙事连贯性上,直接让Qwen3.5评分的相关系数只有0.600,而采用实例专属评分细则之后,提升到了0.850,提高了整整0.250;在跨镜头布局一致性上,从0.429提升到0.767,提高了0.338;在镜头内布局文本对齐度上,从0.405提升到0.786,提高了0.381。这三个数字清楚地说明,简单地让AI“随口打分”是多么不可靠,而经过精心设计的评分细则和工具辅助评估,能大幅提升结果的可信度。
研究团队还测试了用规模更小的Qwen2.5-VL-32B-Instruct替代Qwen3.5作为评分模型时,结果是否会大幅下滑。答案基本稳定——例如叙事连贯性的相关系数只从0.850小幅降至0.820,而在布局类指标上也仍然远超直接打分的方式。这说明MSA VBench的评测框架本身设计合理,并不过度依赖某一个特定的AI模型,具有良好的通用性。
七、19个AI系统同台竞技,谁赢谁输
研究团队用MSA VBench对19个当前最先进的系统进行了全面测评,包括商业闭源系统和开源系统两大阵营。
在商业闭源系统中,测试了Seedance 2.0、Wan 2.7、Kling V3、HappyHorse和Sora 2五个系统,以及Wan R2V和HappyHorse R2V两个支持参考图像的版本。在开源系统中,测试了多种不同的组合方案:包括将单镜头音视频模型按镜头逐个生成再拼接的方案(如Ja visDiT++、Ja visGPT、MoVA和LTX-2.3);有先生成长视频再配音的方案(如LongLive配HunyuanFoley、Helios配HunyuanFoley);有先用多镜头视频模型生成画面再配音的方案(如ShotStream配HunyuanFoley);还有先生成单镜头视频、配音后再拼接的方案(如Wan 2.2配HunyuanFoley);以及支持参考图像的DreamID-Omni。
测试结果揭示了四个清晰的规律。
第一个规律是闭源系统与开源系统之间仍然存在显著差距,但有一类开源方案展现出了很强的竞争力。商业系统(以Seedance 2.0为代表)整体领先,但开源方案中,将“先用图像生成关键帧,再以图像为条件生成音视频”的模块化流水线(即所谓的TI2A V模式,以LTX-2.3为代表)表现出了接近商业系统的水平。这一发现富有启发性:在没有大量专有训练数据和算力的情况下,将复杂任务拆解成子任务、用现成工具组合完成,是一条可行的开源突围路径。
第二个规律是所有系统在“导演级精细控制”上都还差得远。无论是闭源还是开源,在跨镜头布局一致性和镜头内布局文本对齐度这两个指标上,得分普遍偏低,开源系统尤为明显。这意味着,当提示词说“主角用左手推了一枚硬币”时,AI经常搞错手的方向,或者干脆没有产生正确的手部动作。在摄影参数符合度上,开源系统也大幅落后于商业系统,说明大多数开源模型目前更像一台“自动随意拍摄的摄像机”,而不是一位能执行专业分镜表的摄影师。
第三个规律是精细的音视频联合同步,对所有系统来说都仍然是一道难题。即便是顶级的商业系统,在唇语同步、声源归属、音视频同步等指标上的表现也并不理想。让音频中每一个音节的发出时刻与对应人物的嘴型变化精确吻合,并且在不同镜头、不同场景下始终保持一致,这对当前所有AI系统来说都是一个尚未解决的挑战。
第四个规律是“先拍视频,再事后配音”的流水线模式,在复杂的多镜头场景中效果很差。多个开源方案采用了先生成无声视频、再用单独的配音模型添加声音的策略。测试结果显示,这类方案在词错误率上明显偏高,唇语同步也很糟糕。根本原因在于:配音模型在事后给视频配音时,无法感知视频中每个镜头切换的语义含义,也无法精确地把音频锚定到对应的视觉事件上。这就像事后给一部默片硬配对白,演员嘴型和台词难以对上是意料之中的结果。这一发现表明,要真正解决多镜头音视频生成问题,需要在模型架构上同时处理视觉和音频,而不是把两者作为两个独立问题串行解决。
八、越难的任务,差距越大
研究团队还专门分析了在不同难度场景下各系统的表现变化,结果进一步揭示了当前系统的短板所在。
当要求生成的镜头数量从1-4个增加到11-15个时,所有系统的得分都有所下降——但下降幅度差别悬殊。商业系统Kling V3的得分只下降了3.5%,而开源系统LongLive配HunyuanFoley的得分暴跌了24.5%,Wan 2.2配HunyuanFoley也下降了11.7%。这说明,维持长时间叙事的一致性,是开源流水线方案目前最薄弱的环节之一。
在“真实场景”与“非真实场景”的对比上,所有系统在处理反常识的非真实内容时得分都会下降。商业系统Seedance 2.0在非真实内容上的得分比真实内容低2.3%,而开源系统Ja visDiT++则下降了4.6%。这反映出一个普遍现象:AI系统倾向于生成它在训练数据中频繁见过的内容,当提示词要求它生成现实中不存在的场景时,它往往会“滑落”回熟悉的模式,而不是严格遵从指令。
在参考素材保真度的测试上,结果展示了一个有趣的不对称:开源系统DreamID-Omni在视觉外貌保真度(角色的长相是否与参考图片一致)上与商业系统的差距相当大,但在声音保真度(声音音色是否与参考音频一致)上,DreamID-Omni的表现(0.535)已经相当接近HappyHorse R2V(0.545)。这意味着,在“声音克隆”这件事上,开源技术已经相对成熟;而“外貌保真”在多镜头联合生成的场景下,仍然是更难突破的技术壁垒。
在定性的失败案例分析中,研究团队整理出了五类典型错误。第一类是文字渲染错误,即便是最顶级的商业系统Seedance 2.0,在需要在画面里显示特定文字时,也经常出现拼写错误或显示不相关的文字。第二类是反常识主体错误,模型生成的内容与提示词的要求不符,比如本应生成“一片会微笑的吐司”,结果生成的却是一个完全不同的物体。第三类是音视频同步失败,包括乐器的弦还没拨动声音就响了,以及配音与说话人性别明显不匹配。第四类是布局控制失败,在要求“用左手做某个动作”的场景中,系统经常用错手,有时甚至会生成三只手的奇怪画面。第五类是主体数量错误,当提示词要求“一支四人乐队”时,系统生成的人数往往不是四个。
说到底,这是一把真正有用的尺子
归根结底,MSA VBench做的事情就是:在AI“导演”们越来越雄心勃勃地宣称自己能拍电影的时候,提供了一套系统、严谨、多维度的评价标准,让我们能够真正分辨谁是言过其实,谁又是货真价实。
这套评测体系的意义不仅在于给现有系统打分,更在于明确指出了当前技术的瓶颈在哪里:音视频的精细同步还远未达到专业水准,长镜头叙事的一致性仍然是开源系统的软肋,“视频+后期配音”的拼凑模式无法真正解决多模态联合生成的核心问题,而统一的音视频联合生成架构才是未来的方向。
对于普通用户而言,这项研究意味着一个重要的参照系正在建立:以后当各家公司发布新的AI视频生成工具并声称效果惊人时,我们至少有了一套相对客观的标准来验证这些声明。而对于开源社区来说,研究团队的发现也带来了切实可行的指引:通过图像先验+音视频联合生成的模块化流水线,开源方案已经展示了缩短与商业系统差距的可能性。
这项工作提出的一个值得深思的问题是:当AI能够稳定地生成技术上无懈可击的多镜头音视频时,“好的视频”的标准是否会随之改变?评判AI创作物好坏的最终权力,是否应当始终留在有审美体验的人类手中?这篇论文以预印本形式发布于2026年5月,编号为arXiv:2605.20183,研究团队也承诺将发布完整的评测数据和代码,供有需要的读者深入探索。
Q&A
Q1:MSA VBench评测体系包含哪些评估维度?
A:MSA VBench包含四个层次共20个评估指标。全局层面评估叙事连贯性、唇语同步、声源归属、音视频同步和视觉质量;跨镜头层面评估布局一致性、五类视觉一致性、音乐一致性和说话人音色一致性;单个镜头层面评估布局文本对齐、摄影参数符合度、音频质量、文字渲染准确性和词错误率;参考素材层面评估角色保真度和声音保真度。这20个指标最终整合为11个评分维度,并乘以镜头完成率系数得出总分。
Q2:为什么“先拍视频再配音”的方式在多镜头场景中效果很差?
A:因为后期配音模型在给已生成的视频添加声音时,无法感知视频中每个镜头切换的语义含义,也无法将音频精确锚定到对应的视觉事件上。这就像给默片硬配对白,演员嘴型和台词很难对上。测试结果显示,采用这种流水线的开源系统在词错误率和唇语同步指标上明显偏高,说明要真正解决多镜头音视频生成问题,需要在模型架构上同时处理视觉和音频,而不是将两者串行独立处理。
Q3:MSA VBench的自动评分与人类评分的一致性如何?
A:MSA VBench的整体评分排名与人类专家判断之间的斯皮尔曼等级相关系数达到0.915,说明两者高度吻合。在最复杂的三个指标上,采用实例专属评分细则和工具辅助评估的新方法,相比直接让AI打分的旧方法,相关系数分别提升了0.250、0.338和0.381,分别达到0.850、0.767和0.786,大幅提升了评估可靠性。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。