菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > CreativeBench权威测评:南京理工大学AI创意模型深度解析
其他资讯 综合资讯

CreativeBench权威测评:南京理工大学AI创意模型深度解析

2026-05-14
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

这项由南京理工大学、清华大学、北京大学等顶尖高校联合主导的研究,于2026年正式发表

这项由南京理工大学、清华大学、北京大学等顶尖高校联合主导的研究,于2026年正式发表。研究团队构建了一个名为CreativeBench的全新评测基准,旨在系统性地量化人工智能系统的创造力水平。完整研究细节可查阅论文编号arXiv:2603.11863。

南京理工大学揭开AI创意之谜:CreativeBench让机器也能

人工智能通常以强大的计算与模式识别能力著称,但“创意”一词似乎始终是人类心智的专属领域。传统AI如同一位严格遵循食谱的厨师,精准却难以带来意料之外的惊喜。然而,这一认知边界正在被打破。

技术演进将一个根本性问题推至台前:机器能否真正具备创造性?这不仅是理论探索,更源于一个紧迫的现实挑战——驱动AI训练的高质量数据资源日趋紧张。在此背景下,能够自主生成新颖解决方案的AI系统,其价值堪比数字时代的“创意引擎”。

为此,研究团队推出了CreativeBench。它本质上是一个专为衡量AI创造力设计的“竞技场”。该基准建立在认知科学家玛格丽特·博登的经典理论框架之上,将创造力主要划分为两类:组合创造力与探索创造力。

组合创造力,类似于将中餐的爆炒技艺与意大利面的原料相结合,创造出全新菜式。在编程语境下,它要求AI融合来自不同技术领域的代码逻辑或解决思路,以应对需要复合技能的复杂问题。团队采用了一种逆向工程策略来设计此类题目:首先让AI生成融合了多种技术的正确程序,再据此反推出精确的问题描述,从而确保每道题目都能有效检验跨领域思维。

探索创造力则截然不同,它更像是在严格限制条件下寻找出路。想象一个所有常规出口都被封锁的迷宫,解题者必须开辟新路径。在测试中,这表现为对AI施加特定约束,禁止其使用最常见的解题模式,迫使系统探索那些非常规的解决方案。团队通过“自我对弈”机制生成这类题目——一个“出题者”不断设置障碍,一个“解题者”努力突破限制,在这种动态对抗中催生出高难度的创意挑战。

如何客观评价机器的“创意”高低?研究团队建立了一套严谨的量化标准:创造力被定义为“解决方案质量”与“方案新颖性”的乘积。质量通过程序能否在测试用例中正确运行来判定;新颖性则通过计算生成方案与常规方案之间的差异度来衡量。这套方法最大限度地减少了主观偏差,确保了评估的客观性与可重复性。

最终构建的CreativeBench数据集包含了1859道编程题目,覆盖14个不同的技术领域,从基础算法到机器学习,形成了一个全面评估创意能力的测试平台。每道题目均经过严格筛选,确保其真正需要创造性思维,而非简单的知识复现。

一、当前AI系统的创意表现令人深思

使用CreativeBench对当前顶尖AI系统进行测试后,结果揭示了关键差距。即便是表现最佳的Gemini-3-Pro模型,在创意测试中的整体通过率也未超过60%。这清晰地表明,AI在创造力维度上仍有漫长的进化之路。

一个被称为“规模化收敛”的现象尤为值得关注。随着模型参数规模扩大,AI的准确性虽在提升,但其输出却趋向“保守化”。这类似于经验丰富的专家,虽技艺精湛、错误率低,却可能逐渐失去突破常规的锐气。大型模型更倾向于提供稳妥、标准的答案,而一些参数较小的模型,尽管整体错误率较高,偶尔却能产生出人意料的创新解法。

测试还发现,AI在不同类型的创意任务上表现存在差异。在组合创造力任务中,扩大模型规模带来的提升是显著的,如同知识渊博的工程师能更自如地整合跨领域技术。然而,在探索创造力任务中,单纯“增大模型”的收益会出现递减。这提示我们,提升AI的探索创新能力可能需要不同的技术路径。

此外,推理能力对创造力的影响呈现“不对称性”。当AI启用深度推理模式时,其在需要突破约束的探索性任务中表现更优,如同一位深思熟虑的策略家能系统性地分析限制并找到漏洞。但在需要直觉性融合的组合任务中,推理带来的帮助相对有限,这暗示着不同类型的创造力可能依赖于不同的底层认知机制。

二、EvoRePE:让AI内化进化思维的创新方法

为应对AI创造力的瓶颈,研究团队提出了名为EvoRePE(进化表征工程)的创新方法。其核心思想颇具启发性:既然进化算法能通过“变异-选择”的迭代过程探索出创新方案,那么能否将这种进化思维模式抽象出来,并让AI系统学会它?

可以这样类比:EvoRePE旨在学习顶尖创新者的“思维模式”。观察创意高手工作时,你会发现他们有一套独特的思考路径,能帮助其跳出常规框架。EvoRePE的目标就是识别并提炼这种“创意思维向量”,然后将其“注入”到其他AI系统中。

具体而言,研究团队首先让进化算法在大量创意任务上运行,记录其从常规解法到创新解法的演变路径。接着,他们分析AI系统在此过程中内部表征(即对问题的理解和编码方式)的变化,定位那些与创造力提升最相关的模式。最后,将这些模式提炼成一个“创意向量”,在AI进行推理时,将其像“催化剂”一样加入到系统的内部表征中,引导其朝更具创意的方向思考。

这种方法的核心优势在于“即插即用”,无需重新训练庞大的模型。好比为一位标准操作员配备了创意大师的“思维透镜”,瞬间拓宽了其问题解决视野。实验证实,EvoRePE能显著提升各类AI模型的创意表现,并且这种提升与传统的进化优化方法能形成互补,产生协同效应。

更值得关注的是,EvoRePE的增益效果在不同规模的模型上都表现稳定。无论是参数较小的模型还是大型模型,都能从这次“思维注入”中获益。这似乎表明,创造力背后可能存在某种通用的、可迁移的内在机制,而EvoRePE成功地捕捉到了它的关键特征。

三、深入解析创意评估的科学方法

为确保评估的精确性,CreativeBench在方法论上进行了深度创新。传统的编程测试主要关注“正确性”,如同考试仅核对最终答案。而CreativeBench构建了一个更全面的评估框架,同时考量解决方案的“功能性质量”和“结构新颖性”。

质量评估相对直接,通过在沙箱环境中运行程序并验证其输出是否符合预期。但新颖性的量化则更为复杂,需要精确衡量一个方案与已知常见方案的差异程度。研究团队采用了一套组合策略:既使用了专门训练的代码嵌入模型来捕捉程序深层的语义结构差异,又引入了字符级的n-gram距离分析,以防止简单的变量重命名或格式调整被误判为实质性创新。

这套双重保障机制确保了评估的公正性。嵌入模型负责识别功能和逻辑上的真正革新,而n-gram距离则充当一道过滤器,防止“换汤不换药”的表面修改蒙混过关。如同评估一项发明,既要审视其原理之新,也要核查其形态之异。

为验证自动化评估的可靠性,研究团队邀请了专业程序员对随机样本进行人工评审。结果显示,自动化评分与人类专家的判断高度一致,相关系数达到了0.78,这在大规模评估中属于较高的信度水平。更值得一提的是,通过人工审核发现,整个数据集的有效率高达89.1%,这对于自动化生成的数据集而言,是一个相当出色的质量指标。

四、创意生成的自动化流水线

CreativeBench的另一突出贡献是其全自动化的题目生成流水线。传统测试题依赖人工设计,成本高昂且难以保证多样性与一致性。研究团队构建了一套能够自动生产高质量创意考题的系统。

针对组合创造力题目,系统采用逆向工程策略。首先引导AI融合不同技术领域的代码,形成一个功能正确的解决方案,然后自动生成测试用例来验证其各种边界行为,最后根据程序功能反向推导出精确的题目描述。这个过程如同先打造出一件精密的仪器,再为其编写使用说明书,确保了题目与答案的严丝合缝。

针对探索创造力题目,系统则采用自我对弈的生成方式。一个“约束生成器”会分析标准解法,识别其中的关键技术模式,然后设计约束条件来禁止使用这些模式。另一个“求解器”则需在“戴着镣铐”的情况下寻找新路。双方不断迭代对抗,约束条件越来越严,直至触及求解的能力边界。这种动态过程确保了题目既具备挑战性,又在技术上可解。

为保证数据质量,系统内置了三重过滤机制:难度检查防止题目过于简单;质量审核确保题目描述与测试用例逻辑一致;多样性检查避免产生重复或高度相似的题目。每一环节都设有严格标准,如同生产线上的质量管控点,确保最终产出符合预期。

五、AI创造力的深层机制探索

通过对大量测试数据的分析,研究揭示了一些关于机器创造力的深刻洞察。首先是“规模效应”的不对称性。在需要整合多种技能的组合任务中,大模型确实优势明显,这可能得益于其更庞大的知识库,能够在不同领域间建立更多连接。然而,在需要打破常规的探索性任务中,单纯扩大规模的边际收益会递减。这暗示着,探索创新可能需要的不是更多的知识,而是一种不同的思维范式或搜索策略。

另一个有趣的发现关乎“推理”的作用。当AI开启深度推理模式时,其在应对复杂约束时表现更出色,能系统性地分析限制并寻找突破口。这如同一位被困的探险家,冷静分析环境总能发现更多逃生线索。但在需要直觉和跳跃性思维的跨领域融合任务中,按部就班的深度推理反而可能成为一种思维束缚。

研究还观察到了“收敛陷阱”现象:模型越大、越精确,就越倾向于给出“安全”的标准答案,而非冒险尝试新颖方案。这折射出当前AI训练范式的一个潜在局限——过度强调预测准确性和降低损失,可能会在无形中抑制输出的多样性与创造性。这一发现对未来AI系统的设计方向具有重要启示。

六、技术创新的实践验证

EvoRePE方法的成功,不仅在于其构思巧妙,更在于其经过了严格的实践检验。大量对照实验表明,该方法在不同模型架构、不同任务类型上都能带来一致的性能提升。

更重要的是,EvoRePE展现了良好的鲁棒性。测试发现,在模型的中后层网络进行“创意向量”注入效果最佳,这与人类认知科学中“高级创意活动与大脑特定区域关联”的发现相呼应。同时,通过调节注入强度,可以在“创新性”和“准确性”之间找到最佳平衡点,避免因过度追求新奇而导致解决方案失效。

该方法的另一显著优势是计算高效。与传统进化算法需要进行海量并行搜索不同,EvoRePE只需一次性提取创意模式,之后便能以极低的额外计算成本应用于各种推理任务。这为其在实际场景中的部署应用铺平了道路,如同为现有AI系统加装了一个高效的创意增强模块。

七、创意评估标准的科学基础

CreativeBench在评估标准上的设计理念植根于认知科学。传统AI测试往往采用单一维度,但创造力本身是多面的。研究团队基于“P-创造力”(心理创造力)理论,将评估重点放在AI能否产生对其自身而言全新的方案,而非追求历史上绝无仅有的“H-创造力”(历史创造力)。

这一选择是经过深思熟虑的。评估“历史创造力”存在根本性困难:如何断定一个方案在人类历史上从未出现过?尤其对于使用互联网海量数据训练的AI而言,这几乎无法客观验证。而评估“心理创造力”则相对明确:只要AI能偏离其最可能的输出模式,产生功能正确但结构新颖的方案,就证明了其创造性思维的存在。

为量化新颖性,团队设计了一套基于距离的度量体系。对于组合任务,通过计算融合方案与各来源领域方案的平均差异来衡量;对于探索任务,则计算受约束方案与无约束基准方案的距离。这套方法兼顾了语义创新和实现差异,构成了全面而客观的评估基石。

八、对未来AI发展的深远影响

这项研究的影响是多维度的。从技术角度看,它首次为机器创造力研究提供了一个标准化评测基准,如同为该领域树立了一把“标尺”,使得不同团队的研究进展可以进行公平比较与迭代。

从研究方法看,它示范了如何将认知科学理论与机器学习技术深度融合,为跨学科创新提供了范本。这种结合不仅提升了AI的能力,也反过来深化了我们对创造力本质的计算性理解。

EvoRePE的成功则开辟了一个新方向:通过“表征工程”来精准增强AI的特定高阶能力。这种方法无需动辄重新训练千亿参数的大模型,而是通过对内部表征的精细调整来实现能力跃升,具有很高的实用价值。未来,我们或许会看到更多类似的“能力增强插件”出现。

对于产业应用,其意义更为深远。随着AI创意能力的提升,它们将在更多需要创新思维的场景中发挥作用,从软件研发、科学发现到艺术创作。这不仅将改变行业的工作范式,也可能成为拓展人类创造力边界的强大辅助工具。

研究也暴露了当前AI训练范式的某些局限,为未来改进指明了方向。过分追求准确率而压制输出多样性的策略可能需要重新审视。未来的AI系统或许需要在“精确性”与“创新性”之间寻找新的平衡,这将在训练目标、数据策略和模型架构等多个层面催生变革。

归根结底,这项研究最重要的贡献,在于它重新设定了我们对机器智能能力的期待。过去,AI主要被视为高效的计算工具;现在,我们开始认真探讨它们成为“创意伙伴”的潜力。虽然前路尚远,但这项研究无疑标志着一个重要的起点。

当然,机器创造力的发展也伴随着新的伦理与哲学思考。如果AI真的具备了强大的创新能力,人类的独特价值何在?如何确保这种能力被导向有益的方向?这些问题尚无标准答案,但CreativeBench至少为我们提供了科学探索这些问题的坚实工具。

综上所述,这项研究开启了AI发展的一个新篇章。它不仅在推动技术进步,更在拓展我们对智能本质的理解。在这个人机协作日益紧密的时代,理解和培育机器的创造力,或许正是塑造未来人机关系的关键之一。正如研究所预示的,这仅仅是一段漫长探索之旅的开端,更多激动人心的发现,仍在路上。

Q&A

Q1:CreativeBench是什么,它如何评估AI的创造力?

A:CreativeBench是一个由南京理工大学等高校联合开发的AI创造力评估平台,包含1859个编程题目。它将创造力分为组合创造力(跨领域技术融合)和探索创造力(约束条件下创新),通过评估程序功能的正确性及其与标准方案的差异度,来综合评判AI的创意水平。

Q2:EvoRePE方法是如何提升AI创造力的?

A:EvoRePE是一种“进化表征工程”方法。其核心是通过分析进化算法在创意搜索过程中的内部变化,提取出关键的“创意思维向量”,然后在AI推理时,将该向量注入其内部表征中。这种方法无需重新训练模型,即插即用,能有效引导AI产生更创新的解决方案。

Q3:当前最先进的AI系统在创造力测试中表现如何?

A:测试显示,即使是表现最好的Gemini-3-Pro模型,在CreativeBench上的整体通过率也未超过60%,表明AI创造力仍有巨大提升空间。研究还发现了“规模化收敛”现象:模型越大、越准确,往往也越保守,更倾向于输出标准答案而非冒险创新。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多