产业资讯开源废片一键变大片

美学照片重构模型北大开源，废片一键变大片

2026-06-09

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

北京大学团队定义美学照片重构任务，构建包含9071对人像照片的数据集AesRecon，并提出AesFor

按下快门后，AI或许能自动提亮肤色、叠加滤镜，却很难将照片修正成你脑海中的完美画面。

一张照片缺乏美感，核心问题往往出在拍摄阶段：构图失衡、取景角度偏差、人物姿态僵硬。现有的修图工具擅长调节亮度、添加美颜效果或更换滤镜，但无法重新组织画面布局、校正拍摄视角、调整人物动作，因而难以修复拍摄过程中遗留的结构性缺陷。

为攻克这一难题，北京大学彭宇新教授团队在图像美学理解领域取得了新突破，正式定义了美学照片重构任务。团队从互联网拍照教学视频中自动挖掘美学语料，构建了业界首个美学照片重构数据集与评测基准AesRecon。该数据集包含9071对人像照片样本，完整记录了同一人物、同一场景下从普通原片到优秀成片的真实优化过程。

在此基础上，团队进一步提出了美学照片重构模型AesFormer。该模型采用“美学规划+美学编辑”两阶段方法，使AI不再局限于调色、美颜等表层修饰，而是能够深度调整构图、视角与人物姿态，从画面结构层面提升照片美感。相关论文已被ICML 2026接收，并已开源。

从「表层修饰」迈向「画面重构」

摄影是记录日常场景、情感与回忆的重要手段。然而，真正触动内心的瞬间往往稍纵即逝。要定格理想画面，拍摄者必须在按下快门的瞬间迅速判断构图、视角、人物姿态等关键要素。

专业摄影师靠系统训练与长期实践形成直觉判断；而普通用户受制于摄影经验不足，拍出的照片常出现构图偏移、视角失衡、姿态僵硬等问题，导致实际成片与预期的理想画面产生明显差距。

为缩小这一差距，用户通常借助图像美化工具提升照片美感。现有工具可大致分为两类：

（1）照片调色工具，如自动修图方法、Photoshop、Lightroom等，主要通过调整曝光、亮度、对比度等基础视觉参数来优化色彩风格；

（2）人像美容工具，如磨皮、美白、瘦脸等，相关功能已在美图秀秀、醒图等应用中广泛普及。

然而，这些方法主要改善色彩、光影和人物外观，却难以修正拍摄阶段留下的「结构性缺陷」：面对构图偏移、视角不佳、姿态僵硬等问题，单纯调色或美容往往无能为力。

换句话说，现有图像美化工具仍缺少一项关键能力：在保持人物身份和场景内容基本一致的前提下，对照片的构图、视角、人物姿态等进行合理调整，从画面结构层面提升照片美感。研究人员将这一任务定义为美学照片重构，如图1所示。

图1. 美学照片重构任务示意图

然而，实现美学照片重构并非易事，主要面临两大难点：

（1）高质量美学语料稀缺：现有数据缺乏“同一人物、同一场景、由差到优”的成对人像照片样本，难以支撑模型学习真实的照片重构过程；

（2）模型美学能力不足：现有图像编辑模型缺乏系统的摄影美学知识与审美判断能力，难以准确识别照片问题并完成合理的画面重构。

针对上述问题，北京大学彭宇新教授团队提出了一套全新方案。团队首先提出了基于拍照教学视频的美学语料挖掘方法VCMP，通过从互联网拍照教学视频中自动挖掘美学语料，构建了全新的美学照片重构数据集与评测基准AesRecon，包含9071对“普通原片-出彩成片”人像照片样本。

在此基础上，团队进一步提出美学照片重构模型AesFormer，采用“美学规划+美学编辑”的两阶段路线：

（1）美学规划：通过冷启动监督微调和美学引导的组相对策略优化，训练美学规划模型分析照片问题，并生成可执行的美学优化方案；

（2）美学编辑：通过以美学优化方案为条件的流匹配训练，训练图像编辑模型将优化方案转化为像素级编辑，提升照片重构能力。

实验结果表明，AesFormer在美学照片重构评测基准上取得了优于现有方法的结果。

研究人员将图像美化从以色彩、光影和人物外观调整为主的表层修饰，升级到能够优化构图、视角和人物姿态的画面重构，为AI理解与生成高品质摄影作品提供了新的研究视角与技术路径。

技术方案

在现有图像资源中，能够呈现“同一人物、同一场景、由差到优”的成对人像照片样本十分稀缺，难以支撑模型学习真实的照片重构过程。互联网拍照教学视频为这一问题提供了可行的数据来源。

这类视频通常会完整记录同一人物、同一场景下的拍摄优化过程：摄影师与模特不断调整机位、构图与人物姿态，让画面从效果普通的原片，逐步优化为更具美学表现力的成片。

图2. 基于拍照教学视频的美学语料挖掘方法（VCMP）框架图

基于这一观察，研究人员提出了基于拍照教学视频的美学语料挖掘方法VCMP，通过从互联网拍照教学视频中自动挖掘美学语料，构建了全新的美学照片重构数据集与评测基准AesRecon，如图2所示。具体而言，首先从视频平台检索摄影教程、姿势指导、构图技巧等相关内容，形成候选拍照教学视频集合。

在此基础上，VCMP通过四个阶段完成语料挖掘：

（1）出彩成片定位：在视频中定位作为最终展示结果的高质量出彩成片；

（2）普通原片匹配：为已定位的出彩成片匹配语义一致、但效果欠佳的普通原片；

（3）照片去干扰：去除视频帧中的字幕、图标、辅助构图线和操作弹窗等遮挡元素；

（4）拍摄事件对齐：检查每个照片对是否来自同一拍摄事件，过滤不满足条件的样本。

最终，AesRecon包含9071对严格对齐的“普通原片-出彩成片”人像照片样本。

图3. 美学照片重构模型（AesFormer）框架图

为解决现有图像编辑模型美学能力不足的问题，研究人员提出美学照片重构模型AesFormer。

如图3所示，AesFormer采用“美学规划+美学编辑”的两阶段方法：

（1）美学规划：通过冷启动监督微调和美学引导的组相对策略优化，训练美学规划模型分析照片问题，并生成可执行的美学优化方案；

（2）美学编辑：通过以美学优化方案为条件的流匹配训练，训练图像编辑模型将优化方案稳定转化为像素级编辑，从而完成照片重构。

阶段I：美学规划

针对AesRecon中的每组照片对，研究人员首先提炼摄影师与模特在拍摄过程中围绕构图、视角、姿态等因素进行的调整，形成从普通原片到出彩成片的美学优化方案。

在此基础上，对多模态大模型进行冷启动监督微调，将美学优化方案建模为符合摄影逻辑的有序决策序列，引导模型沿七个递进的摄影维度分析照片问题，使其具备基础的美学理解、问题诊断与方案规划能力。

训练样本统一表示为(p,q,a)：其中p为普通原片，q为任务指令，a为美学优化方案。模型在给定p和q的条件下学习生成a，即最大化目标优化方案的条件对数似然，损失函数定义如下：

虽然监督微调为模型打下了基础，但仅依赖SFT容易让模型“死记硬背”。对于美学照片重构来说，这一点尤其关键：同一张照片并没有唯一的“正确改法”，构图、视角、姿态、景深的不同调整，都可能得到自然且好看的结果。

为此，研究人员进一步提出美学引导的组相对策略优化，通过格式奖励、语义对齐奖励和美学创意奖励，鼓励模型探索更多样、更合理的优化路径，进一步提升美学规划能力与方案生成质量。实验以Qwen3-VL-8B为基座模型，训练得到美学规划模型AesThinker。

阶段II：美学编辑

研究人员通过以美学优化方案为条件的流匹配训练，使图像编辑模型能够将抽象的美学优化方案转化为精确的像素级修改，从而提升照片重构效果。

训练样本统一表示为(p,a,g)：其中p为普通原片，a为美学优化方案，g为出彩成片。模型以p和a为输入，以g为监督目标进行训练。实验基于Qwen-Image-Edit-2511，训练得到美学编辑模型AesEditor。

推理时，AesFormer采用“美学规划+美学编辑”的两阶段串联流程：先由AesThinker生成美学优化方案，再由AesEditor结合输入照片与优化方案，生成最终的重构照片。

实验结果

表1展示了AesRecon评测基准上的美学照片重构结果。AesFormer在各项指标上均优于开源模型，并与Google闭源商业模型Nano Banana Pro表现相当，在多数指标上取得了更优结果，验证了其可靠的美学照片重构能力。

进一步地，研究人员探究了一个关键问题：现有图像编辑模型表现不佳，是否是因为缺少明确的编辑指令？换言之，能否通过简单组合现有的Thinker与Editor来实现美学照片重构？

为此，研究人员使用Qwen3-VL-8B和GPT-4o生成优化方案，再由不同的编辑模型根据方案完成照片重构。结果显示，这类组合并未带来稳定提升，部分情况下甚至导致性能下降。这表明，美学照片重构无法通过简单的“生成指令+执行编辑”实现，主要原因在于：

（1）通用Thinker缺乏美学理解能力，难以准确规划构图、视角、姿态等结构性调整；

（2）通用Editor缺乏美学执行能力，难以稳定完成摄影语义下的复杂编辑。

表1. 美学照片重构模型（AesFormer）在AesRecon评测基准上的美学照片重构结果

图4的案例展示表明，开源图像编辑模型通常难以完成美学照片重构所需的结构性编辑，因此无法有效修正拍摄阶段留下的构图、视角与姿态问题。相比之下，AesFormer通过将美学规划与图像编辑解耦，能够更稳定地通过画面重构提升照片美感。

图4. 美学照片重构模型（AesFormer）案例展示

项目价值

针对高质量美学语料稀缺、模型美学能力不足的问题，研究人员通过从互联网拍照教学视频中自动挖掘美学语料，构建了全新的美学照片重构数据集与评测基准AesRecon，并提出美学照片重构模型AesFormer：首先，通过美学规划模型分析照片问题，并生成美学优化方案；其次，通过美学编辑模型将优化方案转化为像素级编辑，完成照片重构。

研究人员将图像美化从以色彩、光影和人物外观调整为主的表层修饰，升级到能够优化构图、视角与人物姿态的画面重构，为AI理解与生成高品质摄影作品提供了新的研究视角与技术路径。

来源：互联网

上一篇 OpenAI高中辍学天才离职内幕揭秘 下一篇 Kimi估值破2000亿再融136亿赴港IPO提速

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。