厦门大学团队突破AI诚实性:让智能助手学会说“我不知道”的可靠方案
摘要
你是否曾向AI提问,得到看似详尽的回答后,却发现其中混杂着事实错误甚至凭空捏造的信
你是否曾向AI提问,得到看似详尽的回答后,却发现其中混杂着事实错误甚至凭空捏造的信息?这种现象在需要多步检索与逻辑推理的复杂任务中尤为明显,AI系统往往倾向于给出一个看似完整、实则存在缺陷的答案。

一项由厦门大学人工智能研究所、美团、西湖大学及香港理工大学合作完成的研究(arXiv:2601.11037v1)取得了关键进展。该研究系统性地解决了如何让AI搜索助手在能力不足时,能够主动且诚实地回应“我不知道”。
当前的AI搜索助手存在一种“过度自信”倾向。面对需要整合多源信息的复杂查询时,模型更可能基于不完整的检索结果,拼凑出一个看似合理但未必准确的回答,而不是承认信息不足或任务超出当前能力范围。
这一问题的根源在于主流AI训练范式。其核心优化目标通常是“生成正确答案”,类似于只奖励高分学生的应试教育。在这种机制下,模型虽然提升了答题能力,却缺乏评估自身知识边界和答案可靠性的“元认知”能力。
在使用强化学习进行对齐或优化的模型中,该问题被进一步放大。标准的奖励机制通常为正确答案加分,错误答案扣分。在这种设定下,模型很快学会一个策略:即使不确定,也要生成一个答案,因为“不回答”通常不会获得奖励,反而可能错失得分机会。
为了从机制上纠正这一倾向,研究团队提出了“边界感知策略优化”框架。其核心理念是训练AI不仅学会回答问题,更要学会识别何时问题超出了其可靠回答的边界。
该框架包含两个核心设计。首先是“群体边界感知奖励机制”。系统会为同一问题生成多个候选回答。如果所有候选答案均被判定为不正确或不可靠,那么其中选择输出“我不知道”的回应将获得奖励。这鼓励模型在集体无法可靠解决问题时,做出诚实的集体判断。
第二个设计是“适应性奖励调节器”。它动态调整奖励策略:在训练初期,主要鼓励模型进行探索和尝试;随着模型在特定领域的能力趋于稳定,系统则会在模型遇到真正超出其能力边界的问题时,强化对其“承认未知”行为的奖励。这一机制旨在平衡探索的积极性与回答的严谨性。
研究团队在HotpotQA、MuSiQue等四个需要多步推理的复杂问答数据集上进行了验证。这些数据集的问题均要求模型整合多个文档中的信息才能正确解答。
实验结果表明,经过BAPO训练的AI助手,在保持原有问题解决能力的同时,显著增强了边界意识。当遇到信息不足或过于复杂的问题时,模型更倾向于主动声明无法回答,而非生成可能误导用户的答案。
更重要的是,这种“诚实”提升了系统的整体可靠性。通过一个综合了准确性与精确度的可靠性指标进行评估,采用新方法的模型其可靠性平均提升了15.8分,改善显著。
针对“拒绝回答”行为的分析也证实了其合理性。在模型选择说“不知道”的问题中,超过75%确实是即使更强大的模型也难以正确回答的难题。这表明模型的拒绝行为是基于对任务难度的识别,而非简单的回避。
该方法的优势具有较好的普适性。在参数规模分别为30亿、70亿和140亿的不同模型上,BAPO均能有效提升模型的边界感知能力和可靠性,展现了良好的可扩展性。
在实际应用场景中,这种差异至关重要。例如,当被问及某个小众事实时,传统模型可能基于相关性不高的片段给出猜测性答案。而经过BAPO训练的助手则会明确表示:“根据现有检索信息,我无法确认该细节,因此不能提供可靠回答。” 在医疗、法律、金融等高风险领域,一个负责任的“不知道”远比一个自信的错误答案更有价值。
一个自然的疑虑是:鼓励AI说“不知道”,是否会损害其解决问题的积极性?实验数据给出了否定答案。通过更精准的自我评估,模型能将计算资源更集中于其确有把握的问题上,从而在整体上提升了输出答案的可信度和工作效率。
从更宏观的视角看,这项研究为构建“可信AI”提供了新的技术路径。随着AI系统更深地嵌入社会关键决策流程,确保其输出的可靠性与诚实度已成为核心挑战。让AI学会承认无知,不仅是一项算法进步,更体现了一种负责任的设计理念——真正的智能包含对自身局限性的清醒认知。
广泛的对比实验证实了BAPO的优越性。相较于基于不确定性估计或固定置信度阈值的传统方法,新的边界感知策略在平衡答案的准确性、可靠性与精确性方面,表现出了全面且显著的优势。
当然,当前研究也存在其边界。工作主要聚焦于知识密集型问答任务,其在其他类型复杂推理(如数学、代码)上的泛化能力有待进一步验证。如何将该框架适配于更大规模的模型及更开放、动态的现实世界场景,也是未来重要的探索方向。
尽管如此,这项研究无疑指明了一条切实可行的技术道路。它重新定义了我们对AI智能的期待:智能不仅是生成答案的能力,更是判断何时有能力生成可靠答案的智慧。这正如认知科学所揭示的:知道自己的不知道,是迈向可靠知识的第一步。
对于终端用户而言,这意味着未来的AI助手将成为更值得信赖的协作伙伴。当它表示“不确定”时,用户可以更放心地转向其他信息源进行核实;而当它给出肯定答案时,用户对其可信度也可以抱有更高的信心。
这项研究也为AI产业提供了关键启示:在追逐更高性能指标的同时,对系统诚实度与可靠性的工程投入,同样是构建长期用户信任和产品价值的基础。研究团队已公开相关代码与数据,以促进学界和工业界在这一方向的共同探索。这种开放协作的精神,也为这项关于“诚实”的研究增添了另一层实践意义。
Q&A
Q1:边界感知策略优化BAPO是如何工作的?
BAPO通过双重机制训练AI模型。第一是群体边界感知奖励:系统并行生成多个答案,若所有答案均不可靠,则奖励其中诚实声明“不知道”的行为,培养模型的集体边界判断力。第二是适应性奖励调节器:它根据训练阶段动态调整策略,初期鼓励探索,后期则在模型能力真正不足时强化对“承认未知”的奖励,从而精准平衡探索性与可靠性。
Q2:让AI说“不知道”会不会影响其解决问题的能力?
实验数据表明,负面影响极小,且整体收益显著。经过BAPO训练的模型,在标准答案准确率上仅出现约2.2%的轻微下降,但其整体输出可靠性提升了9.7%,而回答的精确性(即给出的答案中正确的比例)提高了11.8%。这意味着模型学会了更高效地分配其认知资源,将算力集中于其能可靠解决的问题上,从而提升了整体输出的质量与可信度。
Q3:这项技术对普通用户有什么实际好处?
用户将获得更值得信赖的AI交互体验。当AI坦言其知识或检索结果的局限性时,用户能有效避免被潜在的错误信息误导,并及时转向其他权威信息源。在答案肯定的情况下,其可信度也更高。尤其在医疗诊断辅助、法律信息查询、金融数据分析等对准确性要求极高的领域,一个诚实的“无法确认”能有效规避风险,保障用户的决策安全与切身利益。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。