其他资讯综合资讯

CreativeBench权威测评：南京理工大学AI创意模型深度解析

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这项由南京理工大学、清华大学、北京大学等顶尖高校联合主导的研究，于2026年正式发表

这项由南京理工大学、清华大学、北京大学等顶尖高校联合主导的研究，于2026年正式发表。研究团队构建了一个名为CreativeBench的全新评测基准，旨在系统性地量化人工智能系统的创造力水平。完整研究细节可查阅论文编号arXiv:2603.11863。

南京理工大学揭开AI创意之谜：CreativeBench让机器也能

人工智能通常以强大的计算与模式识别能力著称，但“创意”一词似乎始终是人类心智的专属领域。传统AI如同一位严格遵循食谱的厨师，精准却难以带来意料之外的惊喜。然而，这一认知边界正在被打破。

技术演进将一个根本性问题推至台前：机器能否真正具备创造性？这不仅是理论探索，更源于一个紧迫的现实挑战——驱动AI训练的高质量数据资源日趋紧张。在此背景下，能够自主生成新颖解决方案的AI系统，其价值堪比数字时代的“创意引擎”。

为此，研究团队推出了CreativeBench。它本质上是一个专为衡量AI创造力设计的“竞技场”。该基准建立在认知科学家玛格丽特·博登的经典理论框架之上，将创造力主要划分为两类：组合创造力与探索创造力。

组合创造力，类似于将中餐的爆炒技艺与意大利面的原料相结合，创造出全新菜式。在编程语境下，它要求AI融合来自不同技术领域的代码逻辑或解决思路，以应对需要复合技能的复杂问题。团队采用了一种逆向工程策略来设计此类题目：首先让AI生成融合了多种技术的正确程序，再据此反推出精确的问题描述，从而确保每道题目都能有效检验跨领域思维。

探索创造力则截然不同，它更像是在严格限制条件下寻找出路。想象一个所有常规出口都被封锁的迷宫，解题者必须开辟新路径。在测试中，这表现为对AI施加特定约束，禁止其使用最常见的解题模式，迫使系统探索那些非常规的解决方案。团队通过“自我对弈”机制生成这类题目——一个“出题者”不断设置障碍，一个“解题者”努力突破限制，在这种动态对抗中催生出高难度的创意挑战。

如何客观评价机器的“创意”高低？研究团队建立了一套严谨的量化标准：创造力被定义为“解决方案质量”与“方案新颖性”的乘积。质量通过程序能否在测试用例中正确运行来判定；新颖性则通过计算生成方案与常规方案之间的差异度来衡量。这套方法最大限度地减少了主观偏差，确保了评估的客观性与可重复性。

最终构建的CreativeBench数据集包含了1859道编程题目，覆盖14个不同的技术领域，从基础算法到机器学习，形成了一个全面评估创意能力的测试平台。每道题目均经过严格筛选，确保其真正需要创造性思维，而非简单的知识复现。

一、当前AI系统的创意表现令人深思

使用CreativeBench对当前顶尖AI系统进行测试后，结果揭示了关键差距。即便是表现最佳的Gemini-3-Pro模型，在创意测试中的整体通过率也未超过60%。这清晰地表明，AI在创造力维度上仍有漫长的进化之路。

一个被称为“规模化收敛”的现象尤为值得关注。随着模型参数规模扩大，AI的准确性虽在提升，但其输出却趋向“保守化”。这类似于经验丰富的专家，虽技艺精湛、错误率低，却可能逐渐失去突破常规的锐气。大型模型更倾向于提供稳妥、标准的答案，而一些参数较小的模型，尽管整体错误率较高，偶尔却能产生出人意料的创新解法。

测试还发现，AI在不同类型的创意任务上表现存在差异。在组合创造力任务中，扩大模型规模带来的提升是显著的，如同知识渊博的工程师能更自如地整合跨领域技术。然而，在探索创造力任务中，单纯“增大模型”的收益会出现递减。这提示我们，提升AI的探索创新能力可能需要不同的技术路径。

此外，推理能力对创造力的影响呈现“不对称性”。当AI启用深度推理模式时，其在需要突破约束的探索性任务中表现更优，如同一位深思熟虑的策略家能系统性地分析限制并找到漏洞。但在需要直觉性融合的组合任务中，推理带来的帮助相对有限，这暗示着不同类型的创造力可能依赖于不同的底层认知机制。

二、EvoRePE：让AI内化进化思维的创新方法

为应对AI创造力的瓶颈，研究团队提出了名为EvoRePE（进化表征工程）的创新方法。其核心思想颇具启发性：既然进化算法能通过“变异-选择”的迭代过程探索出创新方案，那么能否将这种进化思维模式抽象出来，并让AI系统学会它？

可以这样类比：EvoRePE旨在学习顶尖创新者的“思维模式”。观察创意高手工作时，你会发现他们有一套独特的思考路径，能帮助其跳出常规框架。EvoRePE的目标就是识别并提炼这种“创意思维向量”，然后将其“注入”到其他AI系统中。

具体而言，研究团队首先让进化算法在大量创意任务上运行，记录其从常规解法到创新解法的演变路径。接着，他们分析AI系统在此过程中内部表征（即对问题的理解和编码方式）的变化，定位那些与创造力提升最相关的模式。最后，将这些模式提炼成一个“创意向量”，在AI进行推理时，将其像“催化剂”一样加入到系统的内部表征中，引导其朝更具创意的方向思考。

这种方法的核心优势在于“即插即用”，无需重新训练庞大的模型。好比为一位标准操作员配备了创意大师的“思维透镜”，瞬间拓宽了其问题解决视野。实验证实，EvoRePE能显著提升各类AI模型的创意表现，并且这种提升与传统的进化优化方法能形成互补，产生协同效应。

更值得关注的是，EvoRePE的增益效果在不同规模的模型上都表现稳定。无论是参数较小的模型还是大型模型，都能从这次“思维注入”中获益。这似乎表明，创造力背后可能存在某种通用的、可迁移的内在机制，而EvoRePE成功地捕捉到了它的关键特征。

三、深入解析创意评估的科学方法

为确保评估的精确性，CreativeBench在方法论上进行了深度创新。传统的编程测试主要关注“正确性”，如同考试仅核对最终答案。而CreativeBench构建了一个更全面的评估框架，同时考量解决方案的“功能性质量”和“结构新颖性”。

质量评估相对直接，通过在沙箱环境中运行程序并验证其输出是否符合预期。但新颖性的量化则更为复杂，需要精确衡量一个方案与已知常见方案的差异程度。研究团队采用了一套组合策略：既使用了专门训练的代码嵌入模型来捕捉程序深层的语义结构差异，又引入了字符级的n-gram距离分析，以防止简单的变量重命名或格式调整被误判为实质性创新。

这套双重保障机制确保了评估的公正性。嵌入模型负责识别功能和逻辑上的真正革新，而n-gram距离则充当一道过滤器，防止“换汤不换药”的表面修改蒙混过关。如同评估一项发明，既要审视其原理之新，也要核查其形态之异。

为验证自动化评估的可靠性，研究团队邀请了专业程序员对随机样本进行人工评审。结果显示，自动化评分与人类专家的判断高度一致，相关系数达到了0.78，这在大规模评估中属于较高的信度水平。更值得一提的是，通过人工审核发现，整个数据集的有效率高达89.1%，这对于自动化生成的数据集而言，是一个相当出色的质量指标。

四、创意生成的自动化流水线

CreativeBench的另一突出贡献是其全自动化的题目生成流水线。传统测试题依赖人工设计，成本高昂且难以保证多样性与一致性。研究团队构建了一套能够自动生产高质量创意考题的系统。

针对组合创造力题目，系统采用逆向工程策略。首先引导AI融合不同技术领域的代码，形成一个功能正确的解决方案，然后自动生成测试用例来验证其各种边界行为，最后根据程序功能反向推导出精确的题目描述。这个过程如同先打造出一件精密的仪器，再为其编写使用说明书，确保了题目与答案的严丝合缝。

针对探索创造力题目，系统则采用自我对弈的生成方式。一个“约束生成器”会分析标准解法，识别其中的关键技术模式，然后设计约束条件来禁止使用这些模式。另一个“求解器”则需在“戴着镣铐”的情况下寻找新路。双方不断迭代对抗，约束条件越来越严，直至触及求解的能力边界。这种动态过程确保了题目既具备挑战性，又在技术上可解。

为保证数据质量，系统内置了三重过滤机制：难度检查防止题目过于简单；质量审核确保题目描述与测试用例逻辑一致；多样性检查避免产生重复或高度相似的题目。每一环节都设有严格标准，如同生产线上的质量管控点，确保最终产出符合预期。

五、AI创造力的深层机制探索

通过对大量测试数据的分析，研究揭示了一些关于机器创造力的深刻洞察。首先是“规模效应”的不对称性。在需要整合多种技能的组合任务中，大模型确实优势明显，这可能得益于其更庞大的知识库，能够在不同领域间建立更多连接。然而，在需要打破常规的探索性任务中，单纯扩大规模的边际收益会递减。这暗示着，探索创新可能需要的不是更多的知识，而是一种不同的思维范式或搜索策略。

另一个有趣的发现关乎“推理”的作用。当AI开启深度推理模式时，其在应对复杂约束时表现更出色，能系统性地分析限制并寻找突破口。这如同一位被困的探险家，冷静分析环境总能发现更多逃生线索。但在需要直觉和跳跃性思维的跨领域融合任务中，按部就班的深度推理反而可能成为一种思维束缚。

研究还观察到了“收敛陷阱”现象：模型越大、越精确，就越倾向于给出“安全”的标准答案，而非冒险尝试新颖方案。这折射出当前AI训练范式的一个潜在局限——过度强调预测准确性和降低损失，可能会在无形中抑制输出的多样性与创造性。这一发现对未来AI系统的设计方向具有重要启示。

六、技术创新的实践验证

EvoRePE方法的成功，不仅在于其构思巧妙，更在于其经过了严格的实践检验。大量对照实验表明，该方法在不同模型架构、不同任务类型上都能带来一致的性能提升。

更重要的是，EvoRePE展现了良好的鲁棒性。测试发现，在模型的中后层网络进行“创意向量”注入效果最佳，这与人类认知科学中“高级创意活动与大脑特定区域关联”的发现相呼应。同时，通过调节注入强度，可以在“创新性”和“准确性”之间找到最佳平衡点，避免因过度追求新奇而导致解决方案失效。

该方法的另一显著优势是计算高效。与传统进化算法需要进行海量并行搜索不同，EvoRePE只需一次性提取创意模式，之后便能以极低的额外计算成本应用于各种推理任务。这为其在实际场景中的部署应用铺平了道路，如同为现有AI系统加装了一个高效的创意增强模块。

七、创意评估标准的科学基础

CreativeBench在评估标准上的设计理念植根于认知科学。传统AI测试往往采用单一维度，但创造力本身是多面的。研究团队基于“P-创造力”（心理创造力）理论，将评估重点放在AI能否产生对其自身而言全新的方案，而非追求历史上绝无仅有的“H-创造力”（历史创造力）。

这一选择是经过深思熟虑的。评估“历史创造力”存在根本性困难：如何断定一个方案在人类历史上从未出现过？尤其对于使用互联网海量数据训练的AI而言，这几乎无法客观验证。而评估“心理创造力”则相对明确：只要AI能偏离其最可能的输出模式，产生功能正确但结构新颖的方案，就证明了其创造性思维的存在。

为量化新颖性，团队设计了一套基于距离的度量体系。对于组合任务，通过计算融合方案与各来源领域方案的平均差异来衡量；对于探索任务，则计算受约束方案与无约束基准方案的距离。这套方法兼顾了语义创新和实现差异，构成了全面而客观的评估基石。

八、对未来AI发展的深远影响

这项研究的影响是多维度的。从技术角度看，它首次为机器创造力研究提供了一个标准化评测基准，如同为该领域树立了一把“标尺”，使得不同团队的研究进展可以进行公平比较与迭代。

从研究方法看，它示范了如何将认知科学理论与机器学习技术深度融合，为跨学科创新提供了范本。这种结合不仅提升了AI的能力，也反过来深化了我们对创造力本质的计算性理解。

EvoRePE的成功则开辟了一个新方向：通过“表征工程”来精准增强AI的特定高阶能力。这种方法无需动辄重新训练千亿参数的大模型，而是通过对内部表征的精细调整来实现能力跃升，具有很高的实用价值。未来，我们或许会看到更多类似的“能力增强插件”出现。

对于产业应用，其意义更为深远。随着AI创意能力的提升，它们将在更多需要创新思维的场景中发挥作用，从软件研发、科学发现到艺术创作。这不仅将改变行业的工作范式，也可能成为拓展人类创造力边界的强大辅助工具。

研究也暴露了当前AI训练范式的某些局限，为未来改进指明了方向。过分追求准确率而压制输出多样性的策略可能需要重新审视。未来的AI系统或许需要在“精确性”与“创新性”之间寻找新的平衡，这将在训练目标、数据策略和模型架构等多个层面催生变革。

归根结底，这项研究最重要的贡献，在于它重新设定了我们对机器智能能力的期待。过去，AI主要被视为高效的计算工具；现在，我们开始认真探讨它们成为“创意伙伴”的潜力。虽然前路尚远，但这项研究无疑标志着一个重要的起点。

当然，机器创造力的发展也伴随着新的伦理与哲学思考。如果AI真的具备了强大的创新能力，人类的独特价值何在？如何确保这种能力被导向有益的方向？这些问题尚无标准答案，但CreativeBench至少为我们提供了科学探索这些问题的坚实工具。

综上所述，这项研究开启了AI发展的一个新篇章。它不仅在推动技术进步，更在拓展我们对智能本质的理解。在这个人机协作日益紧密的时代，理解和培育机器的创造力，或许正是塑造未来人机关系的关键之一。正如研究所预示的，这仅仅是一段漫长探索之旅的开端，更多激动人心的发现，仍在路上。

Q&A

Q1：CreativeBench是什么，它如何评估AI的创造力？

A：CreativeBench是一个由南京理工大学等高校联合开发的AI创造力评估平台，包含1859个编程题目。它将创造力分为组合创造力（跨领域技术融合）和探索创造力（约束条件下创新），通过评估程序功能的正确性及其与标准方案的差异度，来综合评判AI的创意水平。

Q2：EvoRePE方法是如何提升AI创造力的？

A：EvoRePE是一种“进化表征工程”方法。其核心是通过分析进化算法在创意搜索过程中的内部变化，提取出关键的“创意思维向量”，然后在AI推理时，将该向量注入其内部表征中。这种方法无需重新训练模型，即插即用，能有效引导AI产生更创新的解决方案。

Q3：当前最先进的AI系统在创造力测试中表现如何？

A：测试显示，即使是表现最好的Gemini-3-Pro模型，在CreativeBench上的整体通过率也未超过60%，表明AI创造力仍有巨大提升空间。研究还发现了“规模化收敛”现象：模型越大、越准确，往往也越保守，更倾向于输出标准答案而非冒险创新。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。