其他资讯人工智能 AI边思考边画画

上海人工智能实验室发布首个推理式图像生成模型：AI边思考边画画

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

解决复杂问题，例如规划最优路线或完成数独谜题，人类思维通常采用渐进式推理——我们

解决复杂问题，例如规划最优路线或完成数独谜题，人类思维通常采用渐进式推理——我们逐步推导，而非瞬间得出结论。如今，人工智能也掌握了这种分步思考的艺术。

上海人工智能实验室团队让AI学会了

这项由上海人工智能实验室联合西安交通大学、上海交通大学、中国科学技术大学、复旦大学、香港中文大学等多所高校共同完成的研究，成果已发表于2026年3月的计算机视觉顶级期刊，论文编号为arXiv:2603.12252v1。团队开发出了一个名为“EndoCoT”的突破性框架，这是首个能够在生成图像过程中进行连贯、多步推理的AI系统。

将传统图像生成AI比作严格遵循食谱的厨师，那么EndoCoT则像一位经验丰富的总厨。前者收到指令便直接执行，对需要逻辑判断的复杂任务无能为力；后者则能在烹饪过程中不断调整火候、尝试味道并思考，最终呈现出色香味俱佳的菜肴。

研究团队在迷宫寻路、旅行商问题、数独解题和视觉空间规划这四个经典推理任务上验证了EndoCoT，结果显著：其平均准确率达到92.1%，比之前最强的基线方法高出8.3个百分点。关键在于，当任务复杂度提升时，EndoCoT展现出卓越的稳定性——在32×32规模的迷宫任务中准确率高达90%，在35×35的数独任务中达到95%，性能远超同类方法。

一、现有AI图像生成的局限性：逻辑链条的缺失

当前主流的AI图像生成模型，尽管能产出视觉效果惊人的作品，但在面对需要逻辑链条的任务时，其短板暴露无遗。它们更像一位临摹大师，能根据描述绘制精美画面，却无法处理需要分步思考的复杂问题。

为探究根源，研究团队对现有模型进行了深度剖析，识别出两个核心瓶颈。

首先是“推理深度不足”。现有的多模态大模型在处理复杂任务时，往往试图在单次编码中解决所有问题，这类似于要求人类瞬间解出复杂方程，显然不切实际。实验表明，在简单的8×8迷宫中，AI尚能勉强找到路径，但面对复杂的32×32迷宫时，生成的路径常出现“穿墙”等违反物理规则的根本性错误。

其次是“静态指导失效”。即便AI的“决策中枢”（多模态语言模型）能产生合理的推理逻辑，这些信息在传递给“执行端”（扩散变换器）的过程中也会出现失真。通过分析注意力熵，团队发现，在处理复杂的空间拓扑关系时，AI的注意力分布过于分散，如同同时关注过多线索，反而无法抓住重点。

进一步的逐层敏感性分析揭示，模型的逻辑推理能力高度集中于视觉编码器与语言模型的交互层。这一发现指向一个关键事实：AI的逻辑思考严重依赖多模态语言模型，而图像生成部分则更擅长将抽象概念转化为具体视觉。

二、EndoCoT的核心创新：实现迭代式推理

基于上述洞察，研究团队设计了EndoCoT框架，其名称意为“内生的思维链”。核心思想是让AI在图像生成过程中进行真正的、迭代式的推理，而非一次性输出结果。

可以这样理解其工作原理：普通AI如同象棋新手，只能基于当前棋盘走一步看一步；而EndoCoT则像一位象棋大师，会在脑中推演后续多步的变化，权衡利弊后，才落下最精妙的一子。

具体而言，EndoCoT包含两大关键组件。

第一个是“迭代思维引导模块”。它允许AI在潜在的思维空间中持续更新自身的理解状态，类似于人类解题时在脑中的反复推敲。每一次迭代，AI都基于前一步的思考结果来刷新其内部表征，这个过程如同持续进行的“自问自答”。

第二个是“终端思维接地模块”。它的作用是确保AI的推理链条始终锚定在正确答案上，防止在多次迭代中产生“思维漂移”。这就好比为思考者提供了一个校准的罗盘，确保方向始终正确。

此外，EndoCoT采用了一个巧妙的两阶段训练策略。第一阶段，AI专注于学习如何进行步骤化的推理，好比学生掌握解题的流程与方法。第二阶段，AI则集中精力提升最终答案的准确性，如同学生在熟悉方法后，重点锤炼得出正解的能力。

三、推理过程的可视化：洞察AI的思考轨迹

EndoCoT最引人入胜的特点之一，在于其推理过程完全透明可见。研究团队展示了AI解决各类问题时清晰的“思考轨迹”，让我们得以窥见它是如何一步步逼近正确答案的。

在迷宫寻路任务中，AI并非直接画出完整路径，而是从起点出发，一步步探索可能的方向。每个推理步骤，它都会更新对当前位置与目标的理解，然后决定下一步走向。这个过程，宛如一位真实的探险者在迷宫中摸索前行。

在数独解题中，AI展现了更复杂的推理能力。它会识别可填数字的格子，然后依据数独规则逐一填入。每填入一个数字，AI都会重新评估整个棋盘的局势，并调整后续策略。这种行为模式，与人类数独高手的思考过程高度相似。

在旅行商问题中，AI需要找出访问所有城市的最短回路。EndoCoT会逐步构建路径，在每一步都综合考虑当前位置、已访问和未访问的城市，从而选择最优的下一站。这体现了真正的动态规划思维。

四、性能表现：全面超越现有基线

在四个不同的推理任务上进行的全面测试表明，EndoCoT在所有评估指标上均显著超越了现有最佳方法。

在迷宫任务中，EndoCoT在不同规模迷宫中均表现出色。在8×8和16×16的简单迷宫中达到100%准确率，在复杂的32×32迷宫中也达到了90%。作为对比，此前的最佳方法DiffThinker在32×32迷宫中准确率仅为65%。更重要的是，EndoCoT生成的路径不仅正确，与真实最短路径的重合度也极高，在32×32迷宫中达到了98.13%。

在数独任务中，EndoCoT展现了惊人的稳定性。在不同难度题目中，其准确率始终保持在95%以上，即便在最富挑战性的35×35数独中仍达95%，而DiffThinker在同等条件下只有55%。

在旅行商问题中，EndoCoT在处理12到18个城市的不同规模问题时，准确率稳定在73%到77%之间。尽管该任务本身复杂度极高，EndoCoT的优势依然明显。

在视觉空间规划任务中，EndoCoT在标准规模问题上表现近乎完美，即使在最困难的32×32超大规模问题上，也取得了85%的准确率。

五、深度分析：EndoCoT高效的关键因素

通过大量的分析实验，研究团队揭示了EndoCoT成功的几个核心机制。

首当其冲的是语义损失函数的重要性。该函数确保了AI的思维过程始终与正确答案对齐。当团队移除此函数时，AI性能急剧下降，在复杂任务中几乎完全失效。这说明，仅靠视觉监督是不够的，明确的文本语义指导对于维持正确的推理方向至关重要。

其次是隐式标记与显式标记的对比。团队尝试让AI显式生成文本推理步骤，但发现这种方法容易导致错误累积——生成长文本序列时，AI易陷入重复循环，最终偏离正轨。相比之下，EndoCoT采用的隐式连续标记能更好地保持推理的连贯性。

第三，联合训练的必要性。单独使用多模态语言模型或扩散变换器效果均不理想。前者虽推理能力强，但缺乏精确的空间定位能力；后者虽擅长生成，但逻辑能力有限。唯有将二者结合并进行联合训练，才能发挥最大效能。

第四，推理步数的可扩展性。EndoCoT支持在推理时动态调整步数。研究发现，增加推理步数能显著提升复杂任务的表现。在32×32迷宫任务中，当步数从2步增至50步，准确率从11%飙升至90%，路径重合度从45.26%提高到98.13%。这种特性为处理更复杂的任务提供了可能。

六、创新的训练策略：两阶段渐进学习

EndoCoT采用了一种创新的两阶段训练策略，其过程模拟了人类掌握复杂技能的方式。

第一阶段称为“推理发展”，AI在此阶段学习如何进行步骤化的视觉推理。每一步推理都受到监督，AI需要学会在每一步都产生合理的中间结果。这好比教学生解题时，不仅要求答案正确，还要求展示完整的计算过程。通过这种方式，AI学会了构建连贯、递增的推理链条。

第二阶段称为“终端巩固”，AI专注于提升最终输出的视觉质量。此阶段，中间推理步骤在前向传播中得以保留，但梯度计算仅针对最终输出。这种做法确保了AI既不会遗忘已学会的推理能力，又能集中优化最终结果的准确性。

这种两阶段策略巧妙地解决了一个训练困境：中间推理步骤和最终输出有着不同的优化目标。前者侧重逻辑连贯性，后者侧重结果准确性。同时优化两者可能导致梯度冲突，而分阶段训练则有效规避了这一问题。

七、技术细节：潜在空间中的思维迭代

EndoCoT的一项核心技术创新，在于其推理过程发生于连续的潜在空间，而非离散的符号空间。这种方法带来了多重优势。

首先，连续空间推理避免了离散符号生成中常见的错误累积问题。在传统符号推理中，一旦某步产生错误符号，后续推理可能全盘皆输。而在连续空间中，即使某步推理不完美，也有机会在后续步骤中修正。

其次，连续空间推理能更好地利用深度神经网络的表征能力。神经网络天生擅长处理连续空间，将推理置于同一空间，能最大化发挥其优势。

从数学上看，EndoCoT的推理过程可描述为：设P为输入的前缀嵌入，h_τ表示第τ步的思维状态，则每一步的状态更新可表示为：h_τ = f_φ([P; h_{τ-1}])，其中f_φ代表多模态语言模型，[·;·]表示张量连接。这个公式看似简洁，却蕴含着复杂的推理动力学。

每个推理步骤τ都对应一个完整的图像生成过程，其条件正是当前的思维状态h_τ。这意味着，AI在每一步思考后都会生成一个中间视觉结果，这些结果逐步逼近最终的正确答案。

八、泛化能力：掌握通用推理策略

EndoCoT展现了出色的泛化能力，这是评估AI智能水平的关键指标。团队测试了AI在面对训练时未见过的场景时的表现。

在迷宫任务中，AI在不同规模迷宫间展现了良好的泛化性。即便只训练过16×16的迷宫，它也能在32×32的更大迷宫中保持相当性能。这说明AI学会的并非记忆特定路径，而是掌握了寻路的通用策略。

在数独任务中，AI能适应不同字体和分辨率的变化。当数独题目以不同视觉风格呈现时，AI仍能准确识别数字并应用正确的逻辑规则。这种跨域泛化能力表明，AI理解的是数独的抽象逻辑，而非特定的视觉模式。

团队还测试了统一训练的效果，即使用单一模型处理所有四种推理任务。结果显示，即使在这种更具挑战性的设定下，EndoCoT依然能保持有竞争力的性能。这证明该方法学到的是通用推理能力，而非针对特定任务的技巧。

九、效率优势：平衡性能与计算成本

EndoCoT不仅在准确性上领先，在计算效率方面也有独特优势。传统方法往往需要重复运行整个图像生成过程，计算开销巨大。而EndoCoT通过在潜在空间中进行推理，显著降低了计算成本。

具体来说，EndoCoT的推理时间主要消耗于多模态语言模型的迭代上，昂贵的图像生成部分（扩散变换器）仅在最后一步运行一次。这种设计使得推理时间的增长大致与推理步数呈线性关系，而非与图像生成的复杂度成比例。

时间分析显示，即使将推理步数从2步增加到50步，总推理时间也只是从16.02秒增至24.81秒，增幅相对平缓。在高分辨率任务中，这一效率优势更为明显，因为图像生成的计算复杂度随分辨率提升而急剧增长，而推理部分的复杂度基本保持稳定。

这一特性让EndoCoT在实际应用中潜力巨大，特别是在需要处理大量推理任务或高分辨率图像的场景。

十、未来展望：从实验室到实际应用

EndoCoT的成功为AI图像生成开辟了新方向，但研究团队也清醒地认识到当前方法的局限与改进空间。

目前，EndoCoT需要高质量的中间监督数据，这在实际应用中可能难以获取。团队正在探索如何减少对此类显式监督的依赖，例如通过自监督或弱监督学习方法。

另一个挑战是推理步数的自动调节。目前仍需人工设定最优步数，这在面对不同任务和复杂度时可能变化。理想的系统应能根据任务难度自动调整推理深度。

团队也在探索将EndoCoT扩展至更广泛的任务领域。目前的实验集中于规则明确的逻辑推理任务，未来有望拓展至更开放、更具创造性的任务，如故事性图像生成、艺术创作等。

从技术演进视角看，EndoCoT代表了AI系统向高阶认知能力迈进的重要一步。它表明，AI不仅能模仿人类的输出，还能模仿人类的思考过程。这种能力对于构建更可靠、更可解释的AI系统意义重大。

可以预见，随着技术进一步发展，这类“具备推理能力的AI”将在更多实际场景中发挥作用——从智能设计助手到教育工具，从科学研究到创意产业，都可能受益于这种具备复杂推理能力的图像生成技术。

归根结底，EndoCoT最重要的贡献，不仅在于特定任务上的性能提升，更在于它证明了AI能够进行真正的推理，而非简单的模式匹配。这为构建更智能、更可靠的AI系统指明了方向，让我们在理解与模拟人类智能的道路上又前进了一步。这项研究已于2026年3月12日发布于arXiv预印本平台，编号arXiv:2603.12252v1，为感兴趣的读者提供了深入了解的窗口。

Q&A

Q1：EndoCoT与普通AI图像生成模型有什么区别？

A：普通AI图像生成模型如同严格按菜谱操作的厨师，只能机械执行指令，难以处理需要逻辑推理的复杂任务。而EndoCoT则像一位经验丰富的主厨，能在生成过程中持续思考与调整，通过一步步推理得出正确答案。它首次赋予了AI在图像生成过程中进行真实、连贯推理的能力。

Q2：EndoCoT的推理过程是怎样的？

A：EndoCoT的推理过程完全可见，类似于人类解决复杂问题的思考轨迹。例如在迷宫寻路中，AI会从起点开始逐步探索，每一步都更新对当前位置的理解；在数独解题中，则会逐一填数并重新评估全局。这种步骤化的推理方式，使其能够处理需要复杂逻辑链条的任务。

Q3：EndoCoT在实际应用中有什么优势？

A：EndoCoT的优势体现在两方面：一是高准确率（平均92.1%，超越最强基线8.3个百分点），二是优异的计算效率。它通过在潜在空间进行推理，避免了重复运行昂贵的图像生成过程。即使推理步数增加25倍，总计算时间也仅增加约50%，这使其特别适合处理复杂任务与高分辨率图像。

来源：互联网

上一篇 上海交大万能视觉大脑AI模型：图像识别、3D重建与机器人操控一体化解决方案 下一篇 上海交大FIRM框架评测：AI绘画编辑的智能评委系统如何提升创作精度

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。