首页 > 资讯 > AI协作信任研究：人类如何应对错误AI建议

其他资讯 AI协作信任研究

AI协作信任研究：人类如何应对错误AI建议

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

一、信任机制的实证博弈每日，数以亿计的用户依赖AI撰写邮件、查询医疗信息、辅助法律

一、信任机制的实证博弈

每日，数以亿计的用户依赖AI撰写邮件、查询医疗信息、辅助法律咨询，甚至指导金融决策。AI时代抛出一个表面简单、实则棘手的命题——何时该信任AI，何时又该坚持自身判断？

这并非哲学思辨，而是不断上演的现实场景。当AI提供的诊断建议可能误导医生时；当律师依赖AI检索结果，却未察觉其正在“一本正经地虚构事实”时；当普通用户在AI用自信口吻输出错误信息时，是否具备辨别的能力？

过往研究多聚焦于实验室场景，让志愿者完成与真实生活脱节的虚构任务，或仅观察用户是否采纳AI建议，而忽略了决策过程中的心理活动与思维路径。马里兰大学的研究团队另辟蹊径——以真实对抗性智力竞赛为载体，让经验丰富的专业玩家与AI深度协作，精准解析信任分配的机制与故障点。

该研究的核心设计在于，将人机协作拆解为两种截然不同的信任决策。第一种是“主动委托”——在预判AI尚未给出答案前，是否授权其独立行动？第二种是“审慎采纳”——在审阅AI给出的答案、置信度及推理依据后，是否接受或拒绝？这两种决策在实际场景中往往交织难辨，研究团队借助精密的游戏设计将其清晰分离，首次在同一群真实用户身上同时揭示了两种信任模式的具体表现。

二、智力竞技场：游戏设计的精妙布局

研究团队选取的竞技平台是“问答碗”（Quizbowl）——一种在美国高校广受欢迎的智力竞赛。这并非简单的抢答游戏，而是极具策略性的知识对抗：题目以由难到易的线索链条形式呈现，任何人或AI若自认掌握答案，均可中途按下抢答器中断读题并给出答案。答对得10分，答错扣5分，且答错者所在队伍将彻底丧失本题作答权。这意味着，若AI队友盲目抢答并给出错误答案，不仅自身丢分，更会拖累整支队伍。

比赛分为两个阶段，精确对应两种信任决策。在“抢答阶段”，人类与AI队友同时接收题干，任何人或AI若先有把握即可抢答——但人类拥有特权，可在比赛开始前“静音”某个AI队友，使其整场比赛无法参与抢答。这正是“主动委托”决策场景的具象化：你尚未目睹AI的答案，便需预先评估其可信度，决定是否授予其独立行动权限。

在“附加题阶段”，抢答成功的队伍将获得一道由三个子问题组成的附加题。流程如下：人类队员先独立给出初始答案，随后AI队友呈现其答案、置信度分数（0-100%）及文字解释。最终，人类需提交一个最终答案——可坚持原判，可采纳任一AI建议，亦可生成全新答案。这便是“审慎采纳”决策场景的呈现：你详细审阅了AI说什么、有多自信、为何如此判断，然后做出最终抉择。

为保证研究公正性，题目经过“对抗性设计”——专门邀请人类专家撰写能够发挥人机互补优势的题目：部分问题考验精确的事实记忆，AI更具优势；另一些问题需要文化语境理解与间接推理，人类更胜一筹。这种设计确保协作本身具有实质意义，而非一方对另一方的完全碾压。

整个实验共进行24场比赛，参与对象包括23名经验丰富的竞技问答选手（平均竞技年龄3.2年，多人拥有全国电视节目参赛经历）及16个风格各异的AI系统，共采集387条抢答委托决策与1440条附加题采纳决策。

三、16个AI队友：各具特色的协作伙伴

赛前，研究团队通过为期四周的公开竞赛招募AI系统。最终入围的16个AI系统风格迥异，宛如一支由不同背景专家组成的顾问团。

部分AI属于“单兵作战型”，只用一个模型（如GPT-4o或DeepSeek V3）直接输出答案，依赖精密的提示词工程提升准确率；部分AI属于“多轮会诊型”，先由一个模型解析题目，再用另一个模型生成答案，随后由第三个模型进行验证，最后用第四个模型整合置信度——整个流程多达四步，类似于医院内四位专科医生的联合会诊；还有AI采用“投票表决”策略，让三个不同模型各自作答，仅当三者意见一致时才输出答案，否则放弃作答，置信度归零。

这些AI系统的底层模型涵盖了GPT-4.1、GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Cohere Command-R等，在测试集上的准确率从30%到80%不等，各有专长。这种多样性是关键——它确保了没有单一AI能全面碾压其他对手，人类选手必须通过持续观察与评估，才能准确判断该信任谁。

赛前，人类选手对这些AI系统一无所知，仅知其代号（如“RodeRunner”、“Magicarp”）。团队采用“蛇形选秀”制度分配AI队友：每轮比赛前，各队按积分从低到高依次挑选AI队友，排名最低的队伍优先选择，排名最高的队伍连选两次后反向循环，以此平衡强弱队间的差距。这一设计模拟了真实世界中用户选择AI工具的过程——在信息不对称的情况下，依据有限的观察来判断哪个AI更适合当前场景。

四、人机协作：多数情况下确实提升效能

研究的第一个关键发现是：人机协作确实比单打独斗更有效。在附加题阶段，人类单独答题的准确率仅为42.8%，随机选择一个AI队友的准确率为59.4%，即使事后诸葛亮地每次选择最准的AI，准确率也仅为77.6%。然而，人类与AI协作后的最终答案准确率达到了81.7%——甚至超越了“最优AI选择”这一理论上限。

这一结果证实了协作过程中产生了真正的“1+1>2”效应。人类能够在AI给出错误答案时，用自己的判断加以纠正；AI则能在人类陷入困境时，提供人类未曾想到的正确解答。有5.5%的题目，人类和AI最初均答错，但通过共同商议与讨论，竟然找到了正确答案——这种“双方都错，但讨论出正确结果”的现象，是协作带来的意外惊喜。

在人类坚持自身正确答案的情况下，成功率高达98%，表明人类整体具备较强的自我保护意识。当人类决定采纳AI的正确答案时，成功率为94.4%。当人类自身不知道答案，需要在两个AI之间辨别谁更可靠时，成功率也达到了83.3%。

然而，两种常见的协作失败模式也清晰浮现。第一种是“过度保守”——人类自己答错了，AI给出了正确答案，但人类并未采纳AI的建议，依然坚持错误答案。这种现象占所有“本可被AI帮助”机会的3.9%。第二种是“盲目追随”——人类原本答对了，但AI给出了错误答案，人类反而放弃自身正确判断，转而追随AI的错误。这种情况占比为1.7%。两者相比，过度保守比盲目追随更为常见，但后者的破坏性同样不容忽视。

五、静音按钮背后的策略博弈

在抢答阶段，关于人类如何管理AI队友的“行动权限”，研究呈现出一幅生动的动态图景。

人类选手普遍展现出比AI更优的自我控制能力：人类抢答的错误率仅为20%，而AI的错误率高达29.4%。有17.9%的题目，是人类在任何AI开口之前就已抢先答对的，这充分体现了人类专家在某些领域的知识深度。

关于静音决策，最有趣的发现是：8支队伍中有8支通过策略性地静音AI，比完全不静音获得了更多分数，整体上实现了理论最大收益的79%。换句话说，静音这一工具是有效的，人类大体上懂得运用它。但问题在于，只有9%的静音决策发生在最佳时机。大多数队伍（73%的情况）静音得太晚——通常是在AI已经用错误答案坑害队伍之后，才想到要采取静音措施。相反，有18%的情况是静音过早，平均比最优时机提前了9.8道题。这通常是因为AI在某几道题上连续失误后，人类对其彻底丧失信心，过早地取消了它的行动权限，从而错过了AI后续本可答对的题目。

综合来看，平均静音时机比最优时机早了3.4道题，大约相当于提前了15%的赛程。这说明，即使在直接行为反馈可用的前提下，人类在实时评估AI可靠性方面依然难以做到精准——一旦对AI能力的印象恶化，往往很难得到逆转。

研究团队基于此发现提炼出一个设计建议：与其粗暴地给用户一个“开/关”二选一，不如提供更精细的控制工具。例如，“在音乐类题目上静音这个AI，但在历史类题目上仍让其发言”——因为用户的信任从来不是全有或全无的，而是因领域、因情境而动态变化的。

六、人类采纳AI建议的决策依据

在附加题阶段，研究团队对人类的决策过程进行了细致的录像分析。一名熟悉竞技问答的研究员逐场观看比赛视频，记录了人类在做出每个采纳或拒绝决定时，具体参考了哪些信息。

研究发现，在人类修改自己初始答案的所有情形中，参考频率最高的是“两个AI意见一致”这一信号，占54.8%的修改决策。换言之，当两个AI队友给出相同答案时，人类大概率会跟随。排在第二位的是“自身的领域知识”，占35%，且准确率相当高，达到92.4%。在两个AI意见不一致的情况下，人类偶尔会参考AI的解释（4.4%）、AI的置信度分数（2.2%），或过去对某个AI的固有印象（2%），但频率整体不高。另有1.5%的决定看起来近乎随机。

最戏剧性的发现来自置信度分数的表现。当两个AI意见不一致时，人类不得不依靠置信度分数来判断谁更可能正确，但这一指标的准确率仅为52.3%——几乎等同于抛硬币。根本原因在于，16个AI系统由不同团队采用不同方法搭建，它们对“置信度”的定义和计算方式完全缺乏统一性。一个系统宣称“87%把握”与另一个系统标榜“87%把握”，其实际可靠程度可能天差地别，就如同不同国家的货币，面值相同但价值各异。研究团队建议，在部署多个AI系统的场景中，必须对置信度分数进行跨系统的统一校准，否则这一数字不仅毫无价值，甚至可能误导用户判断。

七、确认偏误：最危险的认知陷阱

研究中最引人警觉的发现，是确认偏误（confirmation bias）对协作质量的严重破坏。

确认偏误是人类普遍存在的一种认知倾向：我们倾向于相信与自身原有判断一致的信息，而怀疑与之相左的信息。在这项研究中，这种偏误以清晰的数字化形态呈现。

当人类最初给出一个错误答案，而两个AI队友中恰好有一个给出了与人类相同的错误答案（另一个给出了正确答案）时，人类不采纳正确AI答案的比例高达64.5%。换句话说，仅仅因为有一个AI与你犯了同样的错误，你就更容易忽视另一个AI提供的正确纠正——错误被“证实”了，反而使你更加坚定地走在错误的道路上。与此相对应，当两个AI均给出了错误答案时，人类放弃自己原本正确答案的比例超过了10%。

更值得关注的是，高水平的选手在这个陷阱面前甚至比普通选手更加脆弱。研究团队观察到，技术水平高的队伍往往对自身判断更加自信，从而更不愿意在AI与自己意见相左时接受AI的纠正，因此错过了本可借助AI帮助的关键机会。这就是专业自信的副作用——你对某件事了解得越深，就越相信自己的直觉，也越难以坦然承认自己可能错了。

八、何种解释真正具备价值？

除置信度分数外，AI提供的文字解释是影响人类决策的另一关键因素。研究团队从每个AI解释中提取了57个特征，涵盖表面文本属性（如文本长度、词汇重复率）、结构特征（如是否包含引用、是否提及题目原文）以及推理质量（由另一个大语言模型进行评分评估）。随后，他们探讨了两个不同的问题：哪些特征能够预测AI答案的正确性？哪些特征会使人类倾向于信任该解释？

两组答案呈现出惊人的不一致。能够准确预测AI是否正确的特征包括“对题目的理解程度”（预测准确率76%）、“证据引用的充分性”（74%）、“推理的连贯性”（72%）——这些是由AI评估员对解释质量评分得出的语义层面特征。而真正影响人类选择的特征，却是“解释中是否包含引号”（70%的预测力）、“解释与题目文本的语义相似度”（66%）、“单词重叠数量”（63%）——这些均为表面形式上的特征，与实际解释质量关系甚微。

简而言之，人类被AI解释中“看起来很有据可查”的表面信号所吸引，而非被“实际推理是否严密”的深层质量所影响。AI生成的内容越像是在“引经据典”、越多使用了原题中的词汇，人类就越倾向于信任它——哪怕其逻辑实则漏洞百出。唯一同时出现在“预测AI准确性”与“预测人类信任”两个列表中的特征，是“证据引用”——即解释是否直接引用了题目中的具体线索作为推理依据。这表明，当AI的解释明确指向“我是因为题目中提到X、Y、Z才得出这个答案”时，这种解释既更可靠，也更容易让人信服。

这一发现为AI系统设计者提供了清晰的方向：AI生成的解释应明确引用可观察的输入证据，而非给出抽象的内心推理过程；人类用户则需要有意识地训练自己评估“这个解释是否真的理解了问题”，而非被“看起来很专业”的表面形式所迷惑。研究团队在一场实际比赛中观察到了这一区别的真实价值：一名选手在两个AI意见相左时，选择了置信度较低（80%）但解释直接引用题目内容的AI，而放弃了置信度更高（95%）但解释仅是泛泛而谈的AI——结果证明前者才是正确的选择。

九、人类的学习能力：随时间改善的协作质量

研究还捕捉到了一个令人振奋的现象：随着比赛的推进，人类的协作能力确实在提升。

研究团队追踪了两个关键指标：一是“利用率”，即当AI给出了正确答案时，人类采纳这一正确答案的比例；二是“辨别力”，即当两个AI给出不同答案（其中一个正确、一个错误）时，人类选择正确答案所在AI的比例。两个指标均随着比赛轮次的推进显著提升，尤其在难度最高的题目上提升幅度最为明显，辨别力从第一轮的27.1%一路攀升至最后几轮的75.0%。

这一提升并非源于人类在不知答案时盲目跟随AI——如果是那样，辨别力应停留在50%附近。辨别力的大幅提升表明，人类通过观察积累了对不同AI系统强弱项的实质性认知，学会了在关键时刻判断该信任谁。研究团队还注意到，即使在比赛前没有人告知选手各AI的历史表现，选手们的选秀偏好最终仍与AI的实际表现呈现出正相关——特别是在有线下面对面交流的比赛中，这种相关性更强，说明人际间的口耳相传也是构建AI认知的重要渠道。

在整场比赛过程中，附加题的错误率也从第一轮的28%下降至最后阶段的18%，充分表明人类团队整体上确实在从错误中学习，不断优化自身的协作策略。

研究团队基于此发现提炼出的设计建议是：与其仅在部署前给用户展示AI的“总体性能报告”，不如在使用过程中持续呈现“这个AI在你今天遇到的这类问题上表现如何”——这种情境化、动态更新的反馈，比静态的事前评估更能帮助用户精准校准信任。

十、五条改善人机协作的设计原则

研究团队在分析过程中总结出五条可操作的设计原则，为未来AI协作系统的构建提供了具体指引。

第一条原则涉及控制粒度。现有许多AI系统仅提供一个“开/关”选项，但真实的信任从来不是非黑即白的。系统应允许用户按主题、难度、场景来精细调整AI的参与程度。例如，“这道题是音乐题，这个AI在音乐方面不行，先让它在本题保持沉默”——用户对“何时让AI参与”的自主权，与“是否听取AI建议”的决策权同样重要。

第二条原则涉及置信度的统一校准。当系统中同时存在多个AI模型时，跨模型的置信度必须经过统一校准，确保用户在对不同AI的信心水平进行比较时，数字具有真正可比性。尤其是在两个AI意见相左、用户最需要依赖这一指标的时刻，可靠的置信度数字最为关键。

第三条原则涉及动态反馈。协作过程中应持续向用户展示AI在不同领域的历史表现，而不仅仅是提供系统上线前的静态性能指标。这种动态反馈能够帮助用户更快地建立起准确的AI认知，从而减少过早或过晚静音的错误。

第四条原则涉及降低过度保守。由于过度保守（不信任正确AI建议）相较于盲目追随（信任错误AI建议）更为常见，系统设计时应特别关注如何帮助用户在自己不熟悉的领域中认识到AI的优势，鼓励专家在自己的知识盲区里给予AI更多信任空间。

第五条原则涉及解释的锚点。AI给出的解释应明确指向题目或问题中的具体证据，而非仅描述抽象的推理过程。这样的解释既能让人更容易验证AI是否真的理解了问题，又能提升用户对高质量AI建议的接受率。

十一、研究的外推潜力与内在局限

研究团队对其工作的边界保持了清醒的认知。参与实验的选手均为竞技问答领域的资深玩家，这种高强度、高专注度的场景，与医生谨慎斟酌AI辅助诊断、或律师审阅AI检索结果的场景，显然存在差异。知识竞赛中的决策往往更加迅速、更加直觉化，而医疗或法律场景中的决策则拥有更多时间进行反复推敲。这意味着，研究结论不能直接照搬到所有高风险领域，而需要在那些特定领域进行进一步的验证。

研究的样本规模也决定了它更适合描述主要趋势，而难以捕捉个体间的细微差异。23名选手与16个AI系统构成的24场比赛，提供了相当丰富的行为数据。但若想精确区分不同类型的用户策略，或追踪长期协作中信任是否会过度积累，仍需要更大规模的研究支持。

此外，该项研究本质上是观察性的，而非实验性的——研究者记录了人们的行为模式，但无法完全排除混淆因素的影响。举例来说，高置信度的AI是否同时生成了更高质量的解释？如果是这样，我们就无法确定人类是因为看到高置信度分数才信任它，还是因为解释本身质量更高才信任它。要真正确立因果关系，未来研究应采用随机实验设计，单独操控置信度或解释质量，以验证每个因素的独立影响。

归根结底，这项研究告诉我们的是：人机协作是一件真实有效的事，但它绝非自动发生的。人类并非天然就是优秀的协作者，AI也并非完美的建议提供者。过度保守与盲目追随都会削弱协作的价值，而确认偏误、跨模型置信度不统一、以及对表面信号的过度依赖，是目前最主要的三大障碍。逐一清除这些障碍，才是让AI真正成为有效“队友”、而非一个时而有用、时而添乱工具的关键所在。

有意深入了解此项研究的读者，可在ACL Anthology或arXiv上以“AI, Take the Wheel: What Drives Delegation and Trust in Human–Computer Cooperative Question Answering”为关键词检索完整论文。

Q&A

Q1：人机协作的准确率，相较于单独使用AI或单独使用人类，优势具体体现在哪里？

A：在该研究的竞答实验中，人类单独答题准确率约为43%，随机挑选一个AI的准确率约为59%，即便事后诸葛亮地每题都选择最准的AI也只能达到78%，而人机协作后的最终准确率达到了81.7%。额外提升的部分源自两方面：人类纠正了AI的错误，以及有5.5%的题目是人类和AI最初都答错、但通过共同商议后找到了正确答案。

Q2：为何AI的置信度分数在人机协作中几乎难以发挥应有作用？

A：本研究中的16个AI系统由不同团队各自搭建，对“置信度”的定义和计算方式完全不统一。当两个AI意见不一致、人类试图依靠置信度分数判断哪个AI更可靠时，准确率仅约为52.3%，接近随机猜测。根本原因在于不同AI的置信度未经统一校准。一个系统声称87%把握与另一个系统声称87%把握，实际可靠程度可能天差地别，就像不同国家的货币面值相同但价值需要汇率换算一样，缺乏统一基准便无从比较。

Q3：确认偏误在人机协作中具体是如何发生的？

A：当人类自己给出了一个错误答案，而两个AI队友中恰好有一个也给出了同样的错误答案时，人类不采纳另一个正确AI答案的比例高达64.5%。这本应是纠正错误的时机，却因为“有一个AI和我想法一致”，反而使人类更加坚定地维持了错误判断。研究还发现，技术水平越高的选手对自己的初始判断越自信，在这种情况下反而更容易落入这一认知陷阱。

来源：互联网

上一篇 Gemini 3 Pro响应慢？实用优化设置推荐与效率提升指南 下一篇 Paste MCP支持评测：剪贴板历史对接AI工具

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。