Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%

来源：菜鸟下载 | 更新时间：2026-04-26

GitHub Copilot CLI 引入“第二意见”审查机制，AI编程性能提升近75% GitHub Copilot团队近期发布了

GitHub Copilot CLI 引入“第二意见”审查机制，AI编程性能提升近75%

GitHub Copilot团队近期发布了一项实验性功能“Rubber Duck”，为其命令行工具Copilot CLI引入了跨模型的“第二意见”审查机制。官方测试数据显示，该机制能将AI的代码处理性能提升近75%。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这一功能旨在解决代码生成初期的核心痛点：智能体的初始决策错误会像雪球一样在后续步骤中被放大。单一模型的自我审查往往受限于其固有的训练数据和思维模式，难以识别自身盲点。Rubber Duck的创新之处在于，它引入了一个来自不同模型家族的AI作为独立审查员，利用差异化的视角来识别潜在问题。

该机制采用跨模型家族组合策略。例如，若开发者选择Claude系列模型作为主智能体，Rubber Duck便会自动调用GPT-5.4作为审查者。审查者的核心职责是对主智能体的工作计划和输出进行批判性评估，并提交一份包含关键遗漏细节、有待商榷的底层假设以及易出错边界情况的“关注点清单”。

为验证效果，GitHub团队使用SWE-Bench Pro基准进行了测试。对比发现，为Claude Sonnet 4.6配备Rubber Duck审查后，其性能追平了与更强大的Claude Opus 4.6之间高达74.7%的差距。在涉及多文件修改（超过3个文件）或超长操作序列（超过70步）的复杂任务中，配备该机制的智能体得分比基线高出3.8%。实际案例中，该机制成功识别了包括架构逻辑漏洞、循环覆盖错误及跨文件隐性冲突在内的深层隐患。

Rubber Duck提供三种协作模式：主动、被动和用户触发。系统会在关键节点自动请求审查，例如智能体完成计划制定、复杂功能实现或测试用例编写后。当智能体陷入“思考循环”时，系统也会被动触发审查介入。为保障透明度，开发者可随时手动请求审查，Copilot CLI会清晰展示审查反馈及修改建议的依据。

目前，该功能已以实验模式上线。开发者安装GitHub Copilot CLI后，运行 `/experimental` 命令即可启用。启用后，选择Claude作为主模型并确保拥有GPT-5.4的API访问权限，即可体验“双脑协奏”带来的编程效率提升。

菜鸟下载发布此文仅为传递信息，不代表菜鸟下载认同其观点或证实其描述。

展开

Merge Duck 2

类型：策略战棋运营状态：公测语言：简体中文

回合制动漫卡通老少皆宜

前往下载