菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > AI协作信任研究:人类如何应对错误AI建议
其他资讯 AI协作信任研究

AI协作信任研究:人类如何应对错误AI建议

2026-06-08
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

一、信任机制的实证博弈 每日,数以亿计的用户依赖AI撰写邮件、查询医疗信息、辅助法律

一、信任机制的实证博弈

每日,数以亿计的用户依赖AI撰写邮件、查询医疗信息、辅助法律咨询,甚至指导金融决策。AI时代抛出一个表面简单、实则棘手的命题——何时该信任AI,何时又该坚持自身判断?

这并非哲学思辨,而是不断上演的现实场景。当AI提供的诊断建议可能误导医生时;当律师依赖AI检索结果,却未察觉其正在“一本正经地虚构事实”时;当普通用户在AI用自信口吻输出错误信息时,是否具备辨别的能力?

过往研究多聚焦于实验室场景,让志愿者完成与真实生活脱节的虚构任务,或仅观察用户是否采纳AI建议,而忽略了决策过程中的心理活动与思维路径。马里兰大学的研究团队另辟蹊径——以真实对抗性智力竞赛为载体,让经验丰富的专业玩家与AI深度协作,精准解析信任分配的机制与故障点。

该研究的核心设计在于,将人机协作拆解为两种截然不同的信任决策。第一种是“主动委托”——在预判AI尚未给出答案前,是否授权其独立行动?第二种是“审慎采纳”——在审阅AI给出的答案、置信度及推理依据后,是否接受或拒绝?这两种决策在实际场景中往往交织难辨,研究团队借助精密的游戏设计将其清晰分离,首次在同一群真实用户身上同时揭示了两种信任模式的具体表现。

二、智力竞技场:游戏设计的精妙布局

研究团队选取的竞技平台是“问答碗”(Quizbowl)——一种在美国高校广受欢迎的智力竞赛。这并非简单的抢答游戏,而是极具策略性的知识对抗:题目以由难到易的线索链条形式呈现,任何人或AI若自认掌握答案,均可中途按下抢答器中断读题并给出答案。答对得10分,答错扣5分,且答错者所在队伍将彻底丧失本题作答权。这意味着,若AI队友盲目抢答并给出错误答案,不仅自身丢分,更会拖累整支队伍。

比赛分为两个阶段,精确对应两种信任决策。在“抢答阶段”,人类与AI队友同时接收题干,任何人或AI若先有把握即可抢答——但人类拥有特权,可在比赛开始前“静音”某个AI队友,使其整场比赛无法参与抢答。这正是“主动委托”决策场景的具象化:你尚未目睹AI的答案,便需预先评估其可信度,决定是否授予其独立行动权限。

在“附加题阶段”,抢答成功的队伍将获得一道由三个子问题组成的附加题。流程如下:人类队员先独立给出初始答案,随后AI队友呈现其答案、置信度分数(0-100%)及文字解释。最终,人类需提交一个最终答案——可坚持原判,可采纳任一AI建议,亦可生成全新答案。这便是“审慎采纳”决策场景的呈现:你详细审阅了AI说什么、有多自信、为何如此判断,然后做出最终抉择。

为保证研究公正性,题目经过“对抗性设计”——专门邀请人类专家撰写能够发挥人机互补优势的题目:部分问题考验精确的事实记忆,AI更具优势;另一些问题需要文化语境理解与间接推理,人类更胜一筹。这种设计确保协作本身具有实质意义,而非一方对另一方的完全碾压。

整个实验共进行24场比赛,参与对象包括23名经验丰富的竞技问答选手(平均竞技年龄3.2年,多人拥有全国电视节目参赛经历)及16个风格各异的AI系统,共采集387条抢答委托决策与1440条附加题采纳决策。

三、16个AI队友:各具特色的协作伙伴

赛前,研究团队通过为期四周的公开竞赛招募AI系统。最终入围的16个AI系统风格迥异,宛如一支由不同背景专家组成的顾问团。

部分AI属于“单兵作战型”,只用一个模型(如GPT-4o或DeepSeek V3)直接输出答案,依赖精密的提示词工程提升准确率;部分AI属于“多轮会诊型”,先由一个模型解析题目,再用另一个模型生成答案,随后由第三个模型进行验证,最后用第四个模型整合置信度——整个流程多达四步,类似于医院内四位专科医生的联合会诊;还有AI采用“投票表决”策略,让三个不同模型各自作答,仅当三者意见一致时才输出答案,否则放弃作答,置信度归零。

这些AI系统的底层模型涵盖了GPT-4.1、GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Cohere Command-R等,在测试集上的准确率从30%到80%不等,各有专长。这种多样性是关键——它确保了没有单一AI能全面碾压其他对手,人类选手必须通过持续观察与评估,才能准确判断该信任谁。

赛前,人类选手对这些AI系统一无所知,仅知其代号(如“RodeRunner”、“Magicarp”)。团队采用“蛇形选秀”制度分配AI队友:每轮比赛前,各队按积分从低到高依次挑选AI队友,排名最低的队伍优先选择,排名最高的队伍连选两次后反向循环,以此平衡强弱队间的差距。这一设计模拟了真实世界中用户选择AI工具的过程——在信息不对称的情况下,依据有限的观察来判断哪个AI更适合当前场景。

四、人机协作:多数情况下确实提升效能

研究的第一个关键发现是:人机协作确实比单打独斗更有效。在附加题阶段,人类单独答题的准确率仅为42.8%,随机选择一个AI队友的准确率为59.4%,即使事后诸葛亮地每次选择最准的AI,准确率也仅为77.6%。然而,人类与AI协作后的最终答案准确率达到了81.7%——甚至超越了“最优AI选择”这一理论上限。

这一结果证实了协作过程中产生了真正的“1+1>2”效应。人类能够在AI给出错误答案时,用自己的判断加以纠正;AI则能在人类陷入困境时,提供人类未曾想到的正确解答。有5.5%的题目,人类和AI最初均答错,但通过共同商议与讨论,竟然找到了正确答案——这种“双方都错,但讨论出正确结果”的现象,是协作带来的意外惊喜。

在人类坚持自身正确答案的情况下,成功率高达98%,表明人类整体具备较强的自我保护意识。当人类决定采纳AI的正确答案时,成功率为94.4%。当人类自身不知道答案,需要在两个AI之间辨别谁更可靠时,成功率也达到了83.3%。

然而,两种常见的协作失败模式也清晰浮现。第一种是“过度保守”——人类自己答错了,AI给出了正确答案,但人类并未采纳AI的建议,依然坚持错误答案。这种现象占所有“本可被AI帮助”机会的3.9%。第二种是“盲目追随”——人类原本答对了,但AI给出了错误答案,人类反而放弃自身正确判断,转而追随AI的错误。这种情况占比为1.7%。两者相比,过度保守比盲目追随更为常见,但后者的破坏性同样不容忽视。

五、静音按钮背后的策略博弈

在抢答阶段,关于人类如何管理AI队友的“行动权限”,研究呈现出一幅生动的动态图景。

人类选手普遍展现出比AI更优的自我控制能力:人类抢答的错误率仅为20%,而AI的错误率高达29.4%。有17.9%的题目,是人类在任何AI开口之前就已抢先答对的,这充分体现了人类专家在某些领域的知识深度。

关于静音决策,最有趣的发现是:8支队伍中有8支通过策略性地静音AI,比完全不静音获得了更多分数,整体上实现了理论最大收益的79%。换句话说,静音这一工具是有效的,人类大体上懂得运用它。但问题在于,只有9%的静音决策发生在最佳时机。大多数队伍(73%的情况)静音得太晚——通常是在AI已经用错误答案坑害队伍之后,才想到要采取静音措施。相反,有18%的情况是静音过早,平均比最优时机提前了9.8道题。这通常是因为AI在某几道题上连续失误后,人类对其彻底丧失信心,过早地取消了它的行动权限,从而错过了AI后续本可答对的题目。

综合来看,平均静音时机比最优时机早了3.4道题,大约相当于提前了15%的赛程。这说明,即使在直接行为反馈可用的前提下,人类在实时评估AI可靠性方面依然难以做到精准——一旦对AI能力的印象恶化,往往很难得到逆转。

研究团队基于此发现提炼出一个设计建议:与其粗暴地给用户一个“开/关”二选一,不如提供更精细的控制工具。例如,“在音乐类题目上静音这个AI,但在历史类题目上仍让其发言”——因为用户的信任从来不是全有或全无的,而是因领域、因情境而动态变化的。

六、人类采纳AI建议的决策依据

在附加题阶段,研究团队对人类的决策过程进行了细致的录像分析。一名熟悉竞技问答的研究员逐场观看比赛视频,记录了人类在做出每个采纳或拒绝决定时,具体参考了哪些信息。

研究发现,在人类修改自己初始答案的所有情形中,参考频率最高的是“两个AI意见一致”这一信号,占54.8%的修改决策。换言之,当两个AI队友给出相同答案时,人类大概率会跟随。排在第二位的是“自身的领域知识”,占35%,且准确率相当高,达到92.4%。在两个AI意见不一致的情况下,人类偶尔会参考AI的解释(4.4%)、AI的置信度分数(2.2%),或过去对某个AI的固有印象(2%),但频率整体不高。另有1.5%的决定看起来近乎随机。

最戏剧性的发现来自置信度分数的表现。当两个AI意见不一致时,人类不得不依靠置信度分数来判断谁更可能正确,但这一指标的准确率仅为52.3%——几乎等同于抛硬币。根本原因在于,16个AI系统由不同团队采用不同方法搭建,它们对“置信度”的定义和计算方式完全缺乏统一性。一个系统宣称“87%把握”与另一个系统标榜“87%把握”,其实际可靠程度可能天差地别,就如同不同国家的货币,面值相同但价值各异。研究团队建议,在部署多个AI系统的场景中,必须对置信度分数进行跨系统的统一校准,否则这一数字不仅毫无价值,甚至可能误导用户判断。

七、确认偏误:最危险的认知陷阱

研究中最引人警觉的发现,是确认偏误(confirmation bias)对协作质量的严重破坏。

确认偏误是人类普遍存在的一种认知倾向:我们倾向于相信与自身原有判断一致的信息,而怀疑与之相左的信息。在这项研究中,这种偏误以清晰的数字化形态呈现。

当人类最初给出一个错误答案,而两个AI队友中恰好有一个给出了与人类相同的错误答案(另一个给出了正确答案)时,人类不采纳正确AI答案的比例高达64.5%。换句话说,仅仅因为有一个AI与你犯了同样的错误,你就更容易忽视另一个AI提供的正确纠正——错误被“证实”了,反而使你更加坚定地走在错误的道路上。与此相对应,当两个AI均给出了错误答案时,人类放弃自己原本正确答案的比例超过了10%。

更值得关注的是,高水平的选手在这个陷阱面前甚至比普通选手更加脆弱。研究团队观察到,技术水平高的队伍往往对自身判断更加自信,从而更不愿意在AI与自己意见相左时接受AI的纠正,因此错过了本可借助AI帮助的关键机会。这就是专业自信的副作用——你对某件事了解得越深,就越相信自己的直觉,也越难以坦然承认自己可能错了。

八、何种解释真正具备价值?

除置信度分数外,AI提供的文字解释是影响人类决策的另一关键因素。研究团队从每个AI解释中提取了57个特征,涵盖表面文本属性(如文本长度、词汇重复率)、结构特征(如是否包含引用、是否提及题目原文)以及推理质量(由另一个大语言模型进行评分评估)。随后,他们探讨了两个不同的问题:哪些特征能够预测AI答案的正确性?哪些特征会使人类倾向于信任该解释?

两组答案呈现出惊人的不一致。能够准确预测AI是否正确的特征包括“对题目的理解程度”(预测准确率76%)、“证据引用的充分性”(74%)、“推理的连贯性”(72%)——这些是由AI评估员对解释质量评分得出的语义层面特征。而真正影响人类选择的特征,却是“解释中是否包含引号”(70%的预测力)、“解释与题目文本的语义相似度”(66%)、“单词重叠数量”(63%)——这些均为表面形式上的特征,与实际解释质量关系甚微。

简而言之,人类被AI解释中“看起来很有据可查”的表面信号所吸引,而非被“实际推理是否严密”的深层质量所影响。AI生成的内容越像是在“引经据典”、越多使用了原题中的词汇,人类就越倾向于信任它——哪怕其逻辑实则漏洞百出。唯一同时出现在“预测AI准确性”与“预测人类信任”两个列表中的特征,是“证据引用”——即解释是否直接引用了题目中的具体线索作为推理依据。这表明,当AI的解释明确指向“我是因为题目中提到X、Y、Z才得出这个答案”时,这种解释既更可靠,也更容易让人信服。

这一发现为AI系统设计者提供了清晰的方向:AI生成的解释应明确引用可观察的输入证据,而非给出抽象的内心推理过程;人类用户则需要有意识地训练自己评估“这个解释是否真的理解了问题”,而非被“看起来很专业”的表面形式所迷惑。研究团队在一场实际比赛中观察到了这一区别的真实价值:一名选手在两个AI意见相左时,选择了置信度较低(80%)但解释直接引用题目内容的AI,而放弃了置信度更高(95%)但解释仅是泛泛而谈的AI——结果证明前者才是正确的选择。

九、人类的学习能力:随时间改善的协作质量

研究还捕捉到了一个令人振奋的现象:随着比赛的推进,人类的协作能力确实在提升。

研究团队追踪了两个关键指标:一是“利用率”,即当AI给出了正确答案时,人类采纳这一正确答案的比例;二是“辨别力”,即当两个AI给出不同答案(其中一个正确、一个错误)时,人类选择正确答案所在AI的比例。两个指标均随着比赛轮次的推进显著提升,尤其在难度最高的题目上提升幅度最为明显,辨别力从第一轮的27.1%一路攀升至最后几轮的75.0%。

这一提升并非源于人类在不知答案时盲目跟随AI——如果是那样,辨别力应停留在50%附近。辨别力的大幅提升表明,人类通过观察积累了对不同AI系统强弱项的实质性认知,学会了在关键时刻判断该信任谁。研究团队还注意到,即使在比赛前没有人告知选手各AI的历史表现,选手们的选秀偏好最终仍与AI的实际表现呈现出正相关——特别是在有线下面对面交流的比赛中,这种相关性更强,说明人际间的口耳相传也是构建AI认知的重要渠道。

在整场比赛过程中,附加题的错误率也从第一轮的28%下降至最后阶段的18%,充分表明人类团队整体上确实在从错误中学习,不断优化自身的协作策略。

研究团队基于此发现提炼出的设计建议是:与其仅在部署前给用户展示AI的“总体性能报告”,不如在使用过程中持续呈现“这个AI在你今天遇到的这类问题上表现如何”——这种情境化、动态更新的反馈,比静态的事前评估更能帮助用户精准校准信任。

十、五条改善人机协作的设计原则

研究团队在分析过程中总结出五条可操作的设计原则,为未来AI协作系统的构建提供了具体指引。

第一条原则涉及控制粒度。现有许多AI系统仅提供一个“开/关”选项,但真实的信任从来不是非黑即白的。系统应允许用户按主题、难度、场景来精细调整AI的参与程度。例如,“这道题是音乐题,这个AI在音乐方面不行,先让它在本题保持沉默”——用户对“何时让AI参与”的自主权,与“是否听取AI建议”的决策权同样重要。

第二条原则涉及置信度的统一校准。当系统中同时存在多个AI模型时,跨模型的置信度必须经过统一校准,确保用户在对不同AI的信心水平进行比较时,数字具有真正可比性。尤其是在两个AI意见相左、用户最需要依赖这一指标的时刻,可靠的置信度数字最为关键。

第三条原则涉及动态反馈。协作过程中应持续向用户展示AI在不同领域的历史表现,而不仅仅是提供系统上线前的静态性能指标。这种动态反馈能够帮助用户更快地建立起准确的AI认知,从而减少过早或过晚静音的错误。

第四条原则涉及降低过度保守。由于过度保守(不信任正确AI建议)相较于盲目追随(信任错误AI建议)更为常见,系统设计时应特别关注如何帮助用户在自己不熟悉的领域中认识到AI的优势,鼓励专家在自己的知识盲区里给予AI更多信任空间。

第五条原则涉及解释的锚点。AI给出的解释应明确指向题目或问题中的具体证据,而非仅描述抽象的推理过程。这样的解释既能让人更容易验证AI是否真的理解了问题,又能提升用户对高质量AI建议的接受率。

十一、研究的外推潜力与内在局限

研究团队对其工作的边界保持了清醒的认知。参与实验的选手均为竞技问答领域的资深玩家,这种高强度、高专注度的场景,与医生谨慎斟酌AI辅助诊断、或律师审阅AI检索结果的场景,显然存在差异。知识竞赛中的决策往往更加迅速、更加直觉化,而医疗或法律场景中的决策则拥有更多时间进行反复推敲。这意味着,研究结论不能直接照搬到所有高风险领域,而需要在那些特定领域进行进一步的验证。

研究的样本规模也决定了它更适合描述主要趋势,而难以捕捉个体间的细微差异。23名选手与16个AI系统构成的24场比赛,提供了相当丰富的行为数据。但若想精确区分不同类型的用户策略,或追踪长期协作中信任是否会过度积累,仍需要更大规模的研究支持。

此外,该项研究本质上是观察性的,而非实验性的——研究者记录了人们的行为模式,但无法完全排除混淆因素的影响。举例来说,高置信度的AI是否同时生成了更高质量的解释?如果是这样,我们就无法确定人类是因为看到高置信度分数才信任它,还是因为解释本身质量更高才信任它。要真正确立因果关系,未来研究应采用随机实验设计,单独操控置信度或解释质量,以验证每个因素的独立影响。

归根结底,这项研究告诉我们的是:人机协作是一件真实有效的事,但它绝非自动发生的。人类并非天然就是优秀的协作者,AI也并非完美的建议提供者。过度保守与盲目追随都会削弱协作的价值,而确认偏误、跨模型置信度不统一、以及对表面信号的过度依赖,是目前最主要的三大障碍。逐一清除这些障碍,才是让AI真正成为有效“队友”、而非一个时而有用、时而添乱工具的关键所在。

有意深入了解此项研究的读者,可在ACL Anthology或arXiv上以“AI, Take the Wheel: What Drives Delegation and Trust in Human–Computer Cooperative Question Answering”为关键词检索完整论文。

Q&A

Q1:人机协作的准确率,相较于单独使用AI或单独使用人类,优势具体体现在哪里?

A:在该研究的竞答实验中,人类单独答题准确率约为43%,随机挑选一个AI的准确率约为59%,即便事后诸葛亮地每题都选择最准的AI也只能达到78%,而人机协作后的最终准确率达到了81.7%。额外提升的部分源自两方面:人类纠正了AI的错误,以及有5.5%的题目是人类和AI最初都答错、但通过共同商议后找到了正确答案。

Q2:为何AI的置信度分数在人机协作中几乎难以发挥应有作用?

A:本研究中的16个AI系统由不同团队各自搭建,对“置信度”的定义和计算方式完全不统一。当两个AI意见不一致、人类试图依靠置信度分数判断哪个AI更可靠时,准确率仅约为52.3%,接近随机猜测。根本原因在于不同AI的置信度未经统一校准。一个系统声称87%把握与另一个系统声称87%把握,实际可靠程度可能天差地别,就像不同国家的货币面值相同但价值需要汇率换算一样,缺乏统一基准便无从比较。

Q3:确认偏误在人机协作中具体是如何发生的?

A:当人类自己给出了一个错误答案,而两个AI队友中恰好有一个也给出了同样的错误答案时,人类不采纳另一个正确AI答案的比例高达64.5%。这本应是纠正错误的时机,却因为“有一个AI和我想法一致”,反而使人类更加坚定地维持了错误判断。研究还发现,技术水平越高的选手对自己的初始判断越自信,在这种情况下反而更容易落入这一认知陷阱。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多