其他资讯 AI助手

AI助手可靠性研究排名：新加坡国立大学等机构混乱现实最新成果

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

现实场景远非可控环境。设想一下：用户向客服机器人提交退货请求时，表达可能含糊不清

现实场景远非可控环境。设想一下：用户向客服机器人提交退货请求时，表达可能含糊不清、情绪急躁，甚至中途突然改变诉求；与此同时，机器人调取订单系统时可能遭遇服务器超时、返回异常数据，或直接报错——这类突发状况在实际业务中几乎每日反复出现。遗憾的是，绝大多数AI助手的“训练环境”被设定为理想化状态：指令明确、系统稳定、数据完整。这种“实验室培育”的模型一旦投入真实业务场景，面对层出不穷的异常情况，表现必然大打折扣。

新加坡国立大学等多机构研究：让AI助手在

来自新加坡国立大学、美团、清华大学、天津大学及中国科学技术大学的研究团队，将这一现象定义为“训练与部署之间的根本性脱节”，并据此提出了一套名为NoisyAgent的训练框架。框架的核心逻辑简明直接：既然现实环境充满干扰与异常，那就在训练阶段主动将这些“麻烦”注入AI的学习流程，使其在混乱中掌握保持镇定并完成任务的技能。该研究以预印本形式于2026年5月26日发布，论文编号为arXiv:2605.27209，感兴趣的读者可依据该编号查阅原文。

一、为何当前AI助手在实际场景中频频“翻车”

要理解这一症结，不妨类比一位刚入职的新人。他在校期间只接触过标准化的案例练习——每道题目信息完整，每个步骤有教材指引。真正上岗后，面对的却是模糊不清的客户需求、频繁宕机的内部系统，以及随时变卦的上级决策。如果他从未经历过此类混乱，首次面对真实任务时手足无措几乎是必然结局。

当前主流AI助手的训练模式，与这位新人的处境高度一致。现有训练范式通常依赖精心筛选的任务指令与稳定可控的交互环境，让AI在“完美条件”下反复强化，直至表现出色。然而，真实用户的行为千差万别：有人描述需求时语焉不详，有人中途突然变更要求，还有人掺杂大量无关信息。与此同时，AI所调用的外部工具——查询数据库、执行API请求、获取第三方服务——也频繁出现各类故障：返回错误代码、输出不完整结果、甚至给出自相矛盾的数据。

这两类干扰在研究团队的框架中分别被定义为“用户噪声”和“工具噪声”。用户噪声捕捉的是用户交互时的模糊性与多变性，工具噪声则反映工具执行过程中的失败与异常。正是这两类现实中普遍存在的干扰，使得那些在标准测试中表现优异的AI助手，一旦落地真实环境便大幅缩水。

二、NoisyAgent的核心设计：将“麻烦”转化为训练资产

NoisyAgent的解决思路本质上是一种“以乱制乱”的策略。既然现实环境充满不确定性，那就在训练过程中系统性地引入这些不确定性，让AI在受控的混乱中积累经验，从而在真实部署时具备足够的抗干扰能力。

该框架的第一个核心组件是自动噪声注入管道。研究团队设计了一套自动化系统，能够向训练环境中的用户交互和工具响应两个层面同时施加干扰。

在用户端，噪声在任务启动之前即被注入，通过修改用户的交互模式来模拟真实场景中的非理想行为。研究团队归纳了三种典型的用户噪声类型：第一种是“模糊型”，即用户意图描述不清晰，例如只说“帮我调整一下订单”，却未说明具体调整内容；第二种是“矛盾型”，用户需求在对话过程中发生变化或彼此冲突，比如先要求退货，随后又改为换货；第三种是“冗余型”，用户提供了大量与任务无关的额外信息，例如将客服当作倾诉对象，附带许多背景叙述。关键在于，这些干扰仅改变了“表达方式”，而未改变“任务目标”——任务本身的意图始终保持不变，因此AI的反馈奖励仍能准确衡量其是否完成了真实任务。

在工具端，噪声则在AI执行任务的过程中实时注入，通过随机扰动部分工具调用的返回结果来模拟真实系统的不稳定性。工具噪声同样被划分为四种类型：工具请求直接返回错误（类似于提交订单时系统提示“服务不可用”）；输出结果被截断，仅返回部分信息（如同图书馆只提供了半本书）；返回结果包含错误或自相矛盾的数据（好比导航软件指示左转，前方却是一堵墙）；以及输出中包含大量不必要的冗余细节，需要AI自行筛选有效信息。

三、高效训练策略：混合与渐进式升级

仅向训练环境中注入噪声远远不够——如果一开始就用最混乱的环境冲击AI，反而会导致训练过程失控。这就像让游泳新手直接跳入波涛汹涌的海域，结果只会溺水，而非学会游泳。

为此，NoisyAgent设计了第二个核心组件：自适应噪声训练策略，由两个紧密配合的机制组成。

第一个机制是“混合训练”。每次训练时，AI需要在多个并行的“模拟环境”中同时执行同一任务。其中一部分环境是洁净的理想环境，另一部分则是注入了噪声的混乱环境。两组轨迹的评分被分别计算，然后合并用于优化AI的策略。这种设计的精妙之处在于，干净环境提供了稳定的学习基础，防止训练崩溃；而噪声环境则提供了额外挑战，推动AI持续提升应对复杂情况的能力。两者各自独立计算评分标准，避免任何一方“压倒”另一方，从而维持训练的平衡与稳定。

第二个机制是“噪声调度”，即渐进式的难度升级系统。训练从完全理想的环境起步，好比游泳新手先在泳池浅水区练习。随着AI逐渐适应当前难度，系统会自动判断何时升级——判断依据是“表现差距”，即AI在干净环境和噪声环境中完成任务的成功率之差。当这一差距缩小到特定阈值（研究团队设定为5%）时，系统认定AI已适应当前级别的混乱，便会同步提升两件事：噪声在训练中的占比，以及噪声本身的复杂程度。这种方式确保训练始终处于“略有挑战但不至于崩溃”的最佳学习区间。

四、实验成果：混乱中历练，理想环境中更优

研究团队在两个专门的测试集上对NoisyAgent进行了全面评估，分别是AgentNoiseBench（专门测试噪声环境下的表现）和标准的τ²-Bench与VitaBench（测试理想环境下的表现）。测试覆盖了零售、航空、电信、外卖配送、门店服务和在线旅行预订六个不同的客服场景领域。

在两种不同规模的底层模型（8B参数和32B参数）上，NoisyAgent在噪声环境的测试中一致优于所有对比基准方法，包括GRPO、DAPO和GSPO这三种代表性的强化学习训练方法。以8B规模模型在零售领域为例：基础模型未经任何训练时平均得分为24.12分，经过常规强化学习（GRPO）训练后提升至30.48分，而NoisyAgent训练后达到了36.40分，且在“至少一次成功”这一更严苛指标上的提升同样显著。32B规模模型上也呈现出相似规律，NoisyAgent在噪声环境下各领域的平均得分均高于所有基线方法。

更令人意外的结论出现在理想环境的测试中。NoisyAgent不仅没有因为接受“混乱训练”而在干净环境下表现下滑，反而在所有标准测试集上也取得了最优成绩。这意味着，在混乱中历练出来的AI，在风平浪静的环境中同样表现更佳。研究团队的解释是：接触多样化的不完美交互模式，促使AI学会了更稳健、更通用的决策策略，而非仅依赖“一切条件都完美时”的那套应对方式。

五、消融实验：拆解各组件的实际贡献

为了验证框架中每个组件的必要性，研究团队逐一拆除各部分并测试效果——这在学术研究中被称为“消融实验”，好比厨师分别去掉食谱中的每种调料，以确认哪些是真正影响味道的关键成分。

移除“混合训练”机制，让所有训练轨迹都在噪声环境中进行，结果性能出现了最大幅度的下滑。这印证了最初的担忧：无控制地注入噪声会严重破坏训练稳定性，不仅无助于提升鲁棒性，甚至可能让AI变得更差。移除“噪声调度”机制，改为全程使用固定难度的噪声，性能有所下降但幅度较小，说明渐进式难度升级确实有其价值，但并非最关键的一环。移除所有噪声，回归纯净的理想训练环境，则在噪声测试集上的表现明显不如NoisyAgent，验证了噪声训练本身的核心价值。而完全不做任何强化学习训练，直接使用基础模型，自然是各指标中最低的起点。

六、训练过程中的动态变化与行为转变

研究团队还详细记录了训练全程中AI性能的动态变化曲线。在训练初期，NoisyAgent和对照组（无噪声训练）的表现大致相当——此时噪声比例较低，训练基本在干净环境中进行，充当“热身阶段”。随着课程推进，噪声难度和比例逐步提升，AI开始面临真正的挑战，这一阶段甚至出现了短暂的性能轻微下滑——这是正常的“适应期”，类似于运动员加大训练强度后的短暂体能下降。随后，AI逐渐适应并超越了对照组，且在噪声测试环境中的领先优势越来越明显，而对照组在噪声测试中的提升则越来越有限。

除了最终成绩，研究团队还深入分析了训练后AI的“行为模式”发生了哪些变化。他们从三个维度进行了比较：工具调用次数、回复长度，以及推理所消耗的“思考量”。

结果显示，在噪声环境中，NoisyAgent每次任务平均仅调用11.4次工具，而基础模型和对照组分别是13.9次和13.7次，减少了约18%。但在理想环境中，三者的工具调用次数差异微乎其微（约6.7到7.4次）。这说明减少工具调用并非AI“偷懒”或能力退化，而是专门针对噪声环境发展出的适应性策略——在工具不稳定的情况下，AI学会了减少不必要的工具调用，避免在可靠性存疑的系统上反复尝试。

与此同时，NoisyAgent生成的回复文字量显著增加：在噪声环境下，输出的词元数量从对照组的2180增加到了4248，增幅约为一倍。这表明AI倾向于在回复中提供更详细、更明确的信息，通过更清晰的表达来减少后续需要额外澄清的工具调用。

七、具体案例：同一任务，两种结局

研究团队提供了一个来自零售客服场景的具体案例，生动展示了两者在噪声条件下的行为差异。任务是：用户请求将两个订单中的键盘和鼠标分别退货。

基础模型在前11个对话轮次中表现良好，成功核实身份、查询了两个订单、确认了需要退货的商品，用户也明确确认了“是的，请退键盘和鼠标”。然而在接下来的第15到30轮，当系统出现API报错后，基础模型没有重试退货操作，而是莫名其妙地开始推荐台灯，并讨论学生折扣，最终对话结束时没有处理任何一笔退货——任务彻底失败。

NoisyAgent则在前18轮完成了同样的信息收集工作，当用户确认后，在第22轮直接执行了两条退货指令，两笔退货均在同一轮对话中成功处理完毕。

研究团队进一步统计发现，在NoisyAgent成功而基础模型失败的23个同类任务中，有78%呈现出完全相同的模式：基础模型正确理解了用户意图，也收集了所有必要信息，但在遭遇API噪声后，就是无法迈出“执行关键动作”那一步。这揭示了噪声对AI的主要伤害发生在哪个环节——不是“理解”，而是“行动”。NoisyAgent通过反复在噪声中训练，建立了更强的从“理解”到“行动”的执行稳定性。

八、框架的局限性与未来方向

研究团队对这项工作的边界保持了清醒认知。该框架目前聚焦于用户噪声和工具噪声这两种最典型的干扰形式，建模了一组常见的故障模式，但并未声称覆盖现实世界中所有可能的不确定性。真实环境中的噪声可以更加复杂，甚至涉及多种干扰叠加或动态演变，这些更丰富的场景建模留待未来研究继续探索。

此外，实验主要在合成的模拟环境中进行，这些环境经过精心设计以近似真实交互动态，但终究不是完全真实的生产环境。将该框架直接应用于更广泛的真实业务场景，并进行系统性的跨领域验证，同样是未来值得投入的方向。

归根结底，这项研究触及了AI助手从“实验室优等生”到“现实世界可靠帮手”之间那道真实存在的鸿沟。解题思路其实很朴素：与其让AI在完美条件下练到极致，再指望它能自动适应混乱现实，不如从训练一开始就把现实的混乱纳入进来，让AI在受控的不完美中一步步锻炼出抗干扰的能力。

这对普通用户意味着什么？它意味着未来你与AI助手打交道时，即使你说话不那么清楚、系统偶尔出个错、你中途改了主意，AI也能更稳定地理解你的真实需求并完成任务，而不是在遭遇第一个小障碍时就偏离轨道、答非所问。

一个值得继续思考的问题是：当AI助手变得足够“耐噪”之后，用户是否会因此降低对自身表达清晰度的要求，转而更依赖AI的容错能力来弥补沟通中的模糊？这种行为上的变化，又会如何反过来影响AI系统未来的训练数据分布？有兴趣深入探讨这些问题的读者，可通过arXiv编号2605.27209找到原论文。

Q&A

Q1：NoisyAgent是什么技术？

A：NoisyAgent是一套AI智能体训练框架，核心方法是在训练过程中主动向模拟环境注入两类干扰：用户交互噪声（如表达模糊、需求矛盾）和工具执行噪声（如返回错误、数据截断），同时采用混合训练和渐进式难度调度策略，让AI在受控混乱中逐步提升处理真实世界不完美情况的能力。

Q2：为什么AI助手在现实场景中比测试环境表现差很多？

A：根本原因在于训练环境和真实部署环境之间的不匹配。现有训练通常使用清晰的指令和稳定的系统环境，而现实中用户表达往往含糊甚至矛盾，外部工具也频繁出现故障或返回不完整数据。AI在理想环境中练习的策略在遇到这些干扰时容易失效，尤其是在“理解意图之后执行关键动作”这一环节最为脆弱。

Q3：NoisyAgent训练出的AI在正常无噪声环境下表现会变差吗？

A：不会，反而更好。实验结果显示，经过NoisyAgent噪声训练的模型在标准无噪声测试集（τ²-Bench和VitaBench）上同样超过了所有对比基线方法。研究团队认为，多样化的不完美交互让AI学会了更通用的决策策略，避免了对“完美条件”的过度依赖，反而提升了整体能力。

来源：互联网

上一篇 伯克希尔加仓谷歌母公司！AI赛道百亿美元投资排行榜 下一篇 OpenAI正式组建机器人事业部，入局智能硬件新赛道

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。