其他资讯 AI智能

厦门大学团队突破AI诚实性：让智能助手学会说“我不知道”的可靠方案

2026-05-12

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

你是否曾向AI提问，得到看似详尽的回答后，却发现其中混杂着事实错误甚至凭空捏造的信

你是否曾向AI提问，得到看似详尽的回答后，却发现其中混杂着事实错误甚至凭空捏造的信息？这种现象在需要多步检索与逻辑推理的复杂任务中尤为明显，AI系统往往倾向于给出一个看似完整、实则存在缺陷的答案。

AI智能助手学会说

一项由厦门大学人工智能研究所、美团、西湖大学及香港理工大学合作完成的研究（arXiv:2601.11037v1）取得了关键进展。该研究系统性地解决了如何让AI搜索助手在能力不足时，能够主动且诚实地回应“我不知道”。

当前的AI搜索助手存在一种“过度自信”倾向。面对需要整合多源信息的复杂查询时，模型更可能基于不完整的检索结果，拼凑出一个看似合理但未必准确的回答，而不是承认信息不足或任务超出当前能力范围。

这一问题的根源在于主流AI训练范式。其核心优化目标通常是“生成正确答案”，类似于只奖励高分学生的应试教育。在这种机制下，模型虽然提升了答题能力，却缺乏评估自身知识边界和答案可靠性的“元认知”能力。

在使用强化学习进行对齐或优化的模型中，该问题被进一步放大。标准的奖励机制通常为正确答案加分，错误答案扣分。在这种设定下，模型很快学会一个策略：即使不确定，也要生成一个答案，因为“不回答”通常不会获得奖励，反而可能错失得分机会。

为了从机制上纠正这一倾向，研究团队提出了“边界感知策略优化”框架。其核心理念是训练AI不仅学会回答问题，更要学会识别何时问题超出了其可靠回答的边界。

该框架包含两个核心设计。首先是“群体边界感知奖励机制”。系统会为同一问题生成多个候选回答。如果所有候选答案均被判定为不正确或不可靠，那么其中选择输出“我不知道”的回应将获得奖励。这鼓励模型在集体无法可靠解决问题时，做出诚实的集体判断。

第二个设计是“适应性奖励调节器”。它动态调整奖励策略：在训练初期，主要鼓励模型进行探索和尝试；随着模型在特定领域的能力趋于稳定，系统则会在模型遇到真正超出其能力边界的问题时，强化对其“承认未知”行为的奖励。这一机制旨在平衡探索的积极性与回答的严谨性。

研究团队在HotpotQA、MuSiQue等四个需要多步推理的复杂问答数据集上进行了验证。这些数据集的问题均要求模型整合多个文档中的信息才能正确解答。

实验结果表明，经过BAPO训练的AI助手，在保持原有问题解决能力的同时，显著增强了边界意识。当遇到信息不足或过于复杂的问题时，模型更倾向于主动声明无法回答，而非生成可能误导用户的答案。

更重要的是，这种“诚实”提升了系统的整体可靠性。通过一个综合了准确性与精确度的可靠性指标进行评估，采用新方法的模型其可靠性平均提升了15.8分，改善显著。

针对“拒绝回答”行为的分析也证实了其合理性。在模型选择说“不知道”的问题中，超过75%确实是即使更强大的模型也难以正确回答的难题。这表明模型的拒绝行为是基于对任务难度的识别，而非简单的回避。

该方法的优势具有较好的普适性。在参数规模分别为30亿、70亿和140亿的不同模型上，BAPO均能有效提升模型的边界感知能力和可靠性，展现了良好的可扩展性。

在实际应用场景中，这种差异至关重要。例如，当被问及某个小众事实时，传统模型可能基于相关性不高的片段给出猜测性答案。而经过BAPO训练的助手则会明确表示：“根据现有检索信息，我无法确认该细节，因此不能提供可靠回答。” 在医疗、法律、金融等高风险领域，一个负责任的“不知道”远比一个自信的错误答案更有价值。

一个自然的疑虑是：鼓励AI说“不知道”，是否会损害其解决问题的积极性？实验数据给出了否定答案。通过更精准的自我评估，模型能将计算资源更集中于其确有把握的问题上，从而在整体上提升了输出答案的可信度和工作效率。

从更宏观的视角看，这项研究为构建“可信AI”提供了新的技术路径。随着AI系统更深地嵌入社会关键决策流程，确保其输出的可靠性与诚实度已成为核心挑战。让AI学会承认无知，不仅是一项算法进步，更体现了一种负责任的设计理念——真正的智能包含对自身局限性的清醒认知。

广泛的对比实验证实了BAPO的优越性。相较于基于不确定性估计或固定置信度阈值的传统方法，新的边界感知策略在平衡答案的准确性、可靠性与精确性方面，表现出了全面且显著的优势。

当然，当前研究也存在其边界。工作主要聚焦于知识密集型问答任务，其在其他类型复杂推理（如数学、代码）上的泛化能力有待进一步验证。如何将该框架适配于更大规模的模型及更开放、动态的现实世界场景，也是未来重要的探索方向。

尽管如此，这项研究无疑指明了一条切实可行的技术道路。它重新定义了我们对AI智能的期待：智能不仅是生成答案的能力，更是判断何时有能力生成可靠答案的智慧。这正如认知科学所揭示的：知道自己的不知道，是迈向可靠知识的第一步。

对于终端用户而言，这意味着未来的AI助手将成为更值得信赖的协作伙伴。当它表示“不确定”时，用户可以更放心地转向其他信息源进行核实；而当它给出肯定答案时，用户对其可信度也可以抱有更高的信心。

这项研究也为AI产业提供了关键启示：在追逐更高性能指标的同时，对系统诚实度与可靠性的工程投入，同样是构建长期用户信任和产品价值的基础。研究团队已公开相关代码与数据，以促进学界和工业界在这一方向的共同探索。这种开放协作的精神，也为这项关于“诚实”的研究增添了另一层实践意义。

Q&A

Q1：边界感知策略优化BAPO是如何工作的？

BAPO通过双重机制训练AI模型。第一是群体边界感知奖励：系统并行生成多个答案，若所有答案均不可靠，则奖励其中诚实声明“不知道”的行为，培养模型的集体边界判断力。第二是适应性奖励调节器：它根据训练阶段动态调整策略，初期鼓励探索，后期则在模型能力真正不足时强化对“承认未知”的奖励，从而精准平衡探索性与可靠性。

Q2：让AI说“不知道”会不会影响其解决问题的能力？

实验数据表明，负面影响极小，且整体收益显著。经过BAPO训练的模型，在标准答案准确率上仅出现约2.2%的轻微下降，但其整体输出可靠性提升了9.7%，而回答的精确性（即给出的答案中正确的比例）提高了11.8%。这意味着模型学会了更高效地分配其认知资源，将算力集中于其能可靠解决的问题上，从而提升了整体输出的质量与可信度。

Q3：这项技术对普通用户有什么实际好处？

用户将获得更值得信赖的AI交互体验。当AI坦言其知识或检索结果的局限性时，用户能有效避免被潜在的错误信息误导，并及时转向其他权威信息源。在答案肯定的情况下，其可信度也更高。尤其在医疗诊断辅助、法律信息查询、金融数据分析等对准确性要求极高的领域，一个诚实的“无法确认”能有效规避风险，保障用户的决策安全与切身利益。

来源：互联网

上一篇 人大美团联手：AI工具使用能力深度测评与实战指南 下一篇 清华大学与港大联合发布AI核心信息识别技术测评

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

厦门大学团队突破AI诚实性：让智能助手学会说“我不知道”的可靠方案

摘要

Q&A

Q1：边界感知策略优化BAPO是如何工作的？

Q2：让AI说“不知道”会不会影响其解决问题的能力？

Q3：这项技术对普通用户有什么实际好处？

相关文章推荐