其他资讯 AI医疗 AI医疗问答系统

AI医疗问答系统测评：卡内基梅隆大学揭示指南矛盾危机

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

卡内基梅隆大学研究揭示，AI医疗问答系统因依赖不同医院的患者教育手册，对同一问题可

先看一个真实场景。

一位心脏移植术后三个月的患者，康复期间打开医院提供的智能问答系统，输入了一个看似简单却性命攸关的问题：“我什么时候可以再次出国旅行？”

系统给出的答案看起来很专业——有出处，有依据，语气笃定。患者如释重负，记下了那个时间节点。

但患者不知道的是：如果他碰巧问的是另一家医院的系统，得到的等待时间可能是三个月，也可能是六个月，甚至十二个月。每一个答案都同样“有依据”，同样“有出处”，同样“语气笃定”。

这不是系统故障，而是一个更本质的问题：这些AI问答系统背后依赖的是各医院自己编写的患者教育手册，而这些手册对同一个问题给出了截然不同的指导意见。系统只是如实反馈所读内容，却没有任何提示说明“这是我们医院的做法，其他医院可能不同”。

针对这个长期被忽视的漏洞，卡内基梅隆大学研究团队开展了一项系统性研究，构建了一套专门用于测量和揭示“答案因信息来源不同而不同”这一现象的工具，并将其命名为“来源依赖性”问题。

一、为什么这个问题一直被忽视

理解这项研究的价值，先要弄清AI医疗问答系统的工作原理。

目前主流的AI医疗问答系统大多采用“检索增强生成”技术，英文缩写RAG。通俗来讲，它就像一位助手在帮你查资料：你提出问题，助手先翻找相关文件，找到相关段落，再用自己的语言整理成答案。

这种做法有一个明显好处：答案有出处，不是AI凭空捏造。问题在于：如果助手翻的那份文件本身就给出了特定建议，助手就会把那个建议告诉你，而完全不知道——也不会主动告诉你——其他文件对同一个问题有不同的说法。

目前评估AI医疗问答系统质量的主流方法，依赖的是一系列著名测试集，比如MedQA、MedMCQA、PubMedQA和BioASQ。这些测试集的设计逻辑非常清晰：每道题对应一个正确答案，系统答对了得高分，答错了被扣分。

但问题恰恰就在这里。这种“一题一答”的评测框架，天生无法发现“同一个问题因为参考了不同来源而得到不同答案”这件事。它只问“答案对不对”，却从不追问“答案会不会因为翻的那本书不同而改变”。

研究团队把这个被遗漏的维度称为评估体系中“缺失的坐标轴”。在医疗领域，这个缺失的坐标轴可能直接影响患者的行为和健康决策——这才是真正值得警惕的地方。

二、研究者如何把模糊问题变成可测量的指标

发现问题后，研究团队需要把这个模糊的担忧变成可以精确测量的东西。思路很直接：既然问题出在“不同医院的文件对同一问题给出不同回答”，那就把这些文件收集起来，让AI系统分别阅读每一份文件并回答同一个问题，然后系统性地比较这些答案之间的差异。

为此，他们首先建立了一个真实的器官移植患者教育手册数据库。这个数据库覆盖了美国23家大型实体器官移植中心，共收集了102本患者教育手册，涵盖心脏、肾脏、肝脏、肺脏和胰腺五种器官类型。这23家机构包括全美前20大移植中心中的16家，既有知名的大型学术医疗中心，也有社区性质的移植项目，地理分布涵盖全国。

由于不同医院组织患者教育内容的方式各有不同——有的医院分别出版移植前和移植后两本手册，有的合并为一本综合性手册——研究团队把每份阶段性文件都视为独立单元，最终得到了37本移植前手册、39本移植后手册和26本综合手册，共计102本。

然后，他们需要一套真实的患者问题。研究团队从网络上真实存在的移植患者社区中广泛收集了3000多个候选问题，来源包括Reddit的移植话题版块、梅奥诊所患者论坛、Inspire患者社区、美国国家肾脏基金会和美国肝脏基金会的问答页面，以及各医院的患者教育页面。

经过去重处理（相似度超过85%的问题会被合并）、质量和相关性审核，以及匿名化改写（去除可能识别用户身份的信息，并让每个问题在脱离原有对话背景后仍能独立成句），最终保留了1115个问题，平均每个问题23.6个单词。这批问题被命名为TransplantQA基准测试集。

这1115个问题并非千篇一律。其中有311个属于“通用类”问题，也就是所有移植患者都可能关心的话题，比如免疫抑制剂的副作用、生育健康、心理健康等。这类问题会被所有102本手册分别回答，由此产生巨大的两两比较组合。另外804个问题则是“器官特异性”问题，只与特定器官的移植患者相关，这类问题就只由对应器官的手册来回答。

每个问题还被打上了详细标签：属于哪种器官类型、属于哪个临床话题大类（共13个，例如医疗并发症、生育健康、生活方式与日常起居、药物管理、手术与康复等），以及更细致的子话题标签（共43个）。一个问题可以同时属于多个类别，因为很多问题天然涉及多个层面。

三、让AI翻遍每一本手册并回答问题的挑战

有了手册和问题，下一步就是让AI系统阅读每一本手册，然后针对每个相关问题给出答案。这听起来简单，但实际操作中有一个关键难点：如何确保AI读到了手册里真正有用的部分？

这个挑战可以用找书来打比方。如果你手头有一本几百页的书，想找某个具体话题的相关内容，你可以用目录、检索词等方式快速定位。但如果书的编排方式各不相同——有的按时间顺序排列，有的按话题分章，有的混合编排——统一的检索方法就很难保证每次都找对地方。

研究团队为此专门设计了一套名为HERO-QA（分层证据检索与编排系统）的检索策略。这套系统的核心逻辑是“先判断手册的厚薄，再决定怎么找”。

对于较短的手册（全文字符数不超过8万个字符），系统会直接把整本手册的内容都交给AI模型阅读，彻底避免“没找到相关段落”的情况。对于较长的手册，系统会先把手册按章节结构拆分成有层次的片段，然后同时启动四种不同的检索方式来搜索相关内容。

这四种检索方式分别侧重不同的匹配角度：一种是基于语义相似度的“稠密检索”，能找到意思相近但用词不同的段落；一种是基于关键词的“稀疏检索”（BM25），能找到包含相同词汇的段落；还有两种导航式检索，分别针对章节正文和章节标题，能在正文描述与查询词汇不一致时通过标题层面的匹配来补充。

四路检索的结果通过一种叫“互惠排名融合”的算法合并排序，然后再经过一个精排模型进行二次筛选，最终选取最相关的段落。为了让AI生成答案时有足够的上下文，系统还会把选中的段落自动扩展到其所在章节的完整内容，并包含前后相邻章节的片段。

如果检索出来的内容质量不够好，系统会自动触发“全文兜底”模式，用整本手册作为上下文。整个检索过程会保留详细元数据记录，包括这个答案是通过哪种检索模式生成的、涉及了哪些章节，便于后续对答案来源进行审计。

最终，系统用一个大型语言模型（Qwen3-32B）在严格约束的条件下生成答案：只能依据提供的手册内容作答，当手册中没有相关信息时必须明确输出“未涉及：本手册不包含此话题的信息”，而不能用通用医学知识来填补空白。整个参考运行共生成48056个有依据的答案。

四、如何系统性地比较答案之间的差异

48056个答案生成之后，研究团队面临一个更大的挑战：如何系统地比较这些答案之间的关系？

以通用类问题为例，每个通用类问题都被102本手册各自回答了一遍，两两配对比较的组合数量就达到了5151对。乘以311个通用类问题，再加上器官特异性问题的配对数量，总比较对数高达573万余次。

研究团队的解决方案是训练一个AI评判员来执行这些比较，并为比较结果设计了一套包含五个类别的分类体系。

这五个类别沿着“信息覆盖程度”和“答案一致程度”这两个维度排列：

缺失：至少有一方的手册根本没有涉及这个话题，无从比较。
一致：两本手册给出的临床建议相同，没有实质性差异——例如两家医院的手册都告诉患者要避免食用葡萄柚，因为它会影响他克莫司（一种免疫抑制药物）的代谢。
互补：两本手册的内容相互兼容，但覆盖的深度或范围不同——例如一家只列出了副作用，另一家还额外介绍了处理副作用的方法。
分歧：两本手册在临床上有实质性的不同，给出了不同的时间节点、不同的数值阈值或不同的行动建议——例如一家建议移植后6周可以开始运动，另一家建议等到8至12周。
矛盾：两本手册给出了直接对立的指导意见——例如一家说可以接受ABO血型不相容的活体捐献者，另一家明确表示不可以。

这套体系不是随意设计的，它经过了人工标注的验证。研究团队从生产运行结果中抽取了200对样本，每个标签类别各40对（由于“矛盾”类别在总数据中极为罕见，这一类被刻意超采样以保证足够的统计效力），请两位标注人员独立进行判断，然后将AI评判员的判断结果与人工判断进行比对。

结果显示，两位人工标注者之间的一致率达到73%，Cohen's Kappa系数为0.655，属于“中等偏强”的一致水平。在两人意见一致的146对样本中，AI评判员与人工判断的吻合率达到87.7%，Kappa系数高达0.842，属于“几乎完全一致”的水平，加权F1分数为0.876，宏平均F1分数为0.841。

从各类别单独来看，“缺失”类别的F1分数达到1.00，“矛盾”类别为0.99，说明AI在识别极端情况上表现极为可靠。“一致”类别为0.83，“互补”类别为0.70，“分歧”类别为0.69，说明中间地带的判断相对困难，这与这些类别本身的定义模糊性是一致的。

对AI评判员的错误案例分析显示，18个判断错误中有14个（78%）集中在“互补”与“分歧”的边界上——其中8个案例是人工判断为“互补”但AI判断为“分歧”，6个是人工判断为“互补”但AI判断为“一致”。这说明AI评判员在识别“内容存在或不存在”以及“内容直接对立”这两种极端情况时非常可靠，但在“差异是否已经大到值得被称为分歧”这个模糊地带上存在一定的判断偏差。

除了五类标签之外，AI评判员还会为每次比较输出额外的结构化信息：一段2至3句话的临床判断理由、一个描述分歧具体焦点的短语（仅在非“一致”和非“缺失”类别时输出），以及一个低中高三档的临床重要性评级（仅在“分歧”和“矛盾”类别时输出）。

研究团队还通过一个对比实验证明了这种“结构化单次输出”设计的必要性：如果改用“先只输出标签，再用第二次调用从标签推断其他信息”的两步方案，在40个被第一步判断为“分歧”的样本中，第二步会把其中31个（78%）错误地降级为“互补”，而且对所有44个需要输出临床重要性的样本一律给出“高”的评级，完全失去了区分度。结构化单次输出的方案在速度上慢了5至6倍，但这是保证结果质量所必须付出的代价。

五、大规模运行后，数据揭示了什么

573万余次两两比较的结果，呈现出了一幅令人深思的图景。

在所有573万余对比较中，有451.9万对（78.9%）直接被判定为“缺失”——因为至少有一本手册对这个问题完全没有任何相关内容。这意味着，对于绝大多数比较，我们甚至无法进入“两家医院给出了不同建议”这个层面，因为其中至少一家根本什么都没说。

在剩余的121.1万对需要AI评判员进行比较的配对中，“互补”类别占主导地位，比例为75.4%。“分歧”类别占12.9%，“一致”类别占7.1%，“矛盾”类别不足0.1%。

这个结果传递了一个重要信息：直接对立的矛盾建议确实极为罕见，但这并不意味着问题不存在。更常见的情况是，不同医院的手册给患者讲了同一件事的不同方面，或者给出了不同的具体时间节点和数值建议，这些差异不是“非黑即白”的错误，而是“你说六周，我说八到十二周”这种更难被识别的分歧。

从各器官类别来看，所有器官的手册缺失率都在60%至78%之间，即便是在匹配了器官类型之后，平均来说一本手册也只能回答相关患者问题的三分之一到一半。每对非缺失比较中，分歧率（“分歧”加“矛盾”）在14%到19%之间波动，胰腺移植和通用类问题的分歧率略高，位于这个区间的顶端。

如果从“有多少比例的问题至少存在一对分歧”这个角度来看，数字则从30%到56%不等——通用类问题最高（55.6%），胰腺移植次之（29.9%，尽管每对的分歧率最高，但因为能回答的手册本来就少，所以出现分歧的问题数反而相对集中）。

从单本手册的角度来看，不同手册的覆盖率差异极大：手册的“缺失率”从最低的45%到最高的99%都有，平均为74%。最全面的手册与最沉默的手册之间，覆盖广度相差超过两倍。

六、方法论上的关键发现：更好的检索揭示了更多的分歧

研究团队还做了一个颇具启示意义的对比实验。他们用一个较早的版本（使用Qwen3-14B模型和一个较低能力的混合检索方案）跑了同样的基准测试，然后与使用HERO-QA和Qwen3-32B的参考版本进行比较。

结果显示了三个关键趋势：

升级到更强的检索系统之后，每种器官类型的手册缺失率下降了12至19个百分点，平均降幅为13.6个百分点——说明更好的检索系统确实找到了更多相关内容。
然而，每对非缺失比较中的分歧率基本没有变化，平均仅下降了3.1个百分点——说明更强的模型并没有让AI变得“更爱挑毛病”。
出现分歧的问题比例则大幅上升，平均增加了15.9个百分点。

这三个数字放在一起，讲述了一个清晰的故事：早期版本因为检索能力较弱，很多手册被错误地判断为“没有回答这个问题”，实际上这些内容是存在的，只是没被找到。当手册的相关内容被正确地检索出来并进行比较时，分歧就显现出来了。

换句话说，过去那些认为“机构间分歧程度有限”的估计，是因为太多的内容在第一步就被错误地归为“缺失”而被过滤掉了。更好的系统不是制造了更多分歧，而是让原本潜藏着的分歧浮出了水面。

七、这套框架不只适用于医疗

研究团队在论文中明确指出，他们构建的这套框架并非医疗领域专属，其核心设计——一个多来源的基准测试集、一套描述来源间关系的分类体系、一个结构化输出的AI评判员——可以直接移植到其他同样面临“多来源内容不一致”问题的领域。

法律领域是一个典型的例子。美国联邦层面、各州层面以及不同巡回法院的判例法之间存在层次性和差异性，专门面向法律从业者的AI问答工具（如Westlaw AI、Lexis+ AI）在检索时必然面临“同一个法律问题在加州和德克萨斯州的判例给出不同答案”的情况。现有的法律AI评测基准（如LegalBench、LexGLUE）同样依赖单一正确答案的范式，无法诊断这种来源依赖性。

教育领域也面临类似问题。美国各州的课程标准彼此不同，加上不同出版商的教材在具体解释上也存在差异，面向学生或教师的AI辅助工具在检索时可能因为参考的是某个州的课程标准而给出与另一个州截然不同的解答。评测教育AI的ScienceQA和GSM8K同样无法识别这种来源依赖性。

研究团队将这种来源依赖性问题定义为“已部署的多来源自然语言处理系统的共同责任”，而不仅仅是医疗领域的特殊挑战。

八、研究的局限与透明度

研究团队在论文中坦诚地说明了这项工作的几个局限之处。

首先，这项研究的实证部分仅限于2024至2025年快照期间的美国实体器官移植患者教育材料，使用英语。法律和教育领域的可迁移性目前仍停留在概念层面，尚未通过实验验证。

其次，AI评判员本身是一个大型语言模型，会继承该类模型已知的偏差，包括在生成器和评判员使用同一模型家族时可能出现的自我偏好现象（尽管通过对称性设计有所缓解）、对答案长度的偏好，以及引用形式的影响。200对样本的人工验证衡量的是总体层面的一致性，无法排除针对特定机构、特定器官或特定答案长度的系统性偏差。

此外，表面上的来源间分歧，有时可能并非真正的医学建议差异，而是检索失败导致的假象——一本手册明明有相关内容，但系统没找到，于是错误地输出了“未涉及”。研究团队设计的缺失预筛选机制可以在一定程度上缓解这个问题，但无法完全消除。

归根结底，这项研究揭示的是一个关于AI系统如何向普通人传递信息的根本性问题。当一个AI问答系统信心满满地告诉一位器官移植患者“你六周后可以开始运动”，这个答案是对的吗？在某一本手册看来是对的。但在另一本手册看来，正确的答案是八到十二周。两本手册都是真实医院写给真实患者的真实指导文件。

这不是AI“幻觉”的问题，也不是检索质量不够好的问题。即使检索完全准确，只要不同医院的手册对同一个问题给出了不同答案，AI系统给出的回答就会因它碰巧读到了哪本手册而改变。而患者完全不知道这一点。

这项来自卡内基梅隆大学的研究提供了一套用于系统性测量和揭示这一现象的工具：TransplantQA基准测试集、HERO-QA检索系统和结构化输出的评判框架，全部研究成果（包括48056个有依据的答案和573万余次两两比较结果）均已公开发布，供研究社区使用和复现。这项工作提出的核心问题值得每一个正在构建或使用多来源AI问答系统的人认真思考：你的系统，有没有机制来告知用户它给出的答案，其实可能因为参考的文件不同而有所不同？

Q&A

Q1：TransplantQA基准测试集的患者问题是如何收集的？

A：TransplantQA的1115个患者问题来源于真实的网络移植患者社区，包括Reddit移植话题版块、梅奥诊所患者论坛、美国国家肾脏基金会等平台。研究团队从3000多个候选问题中经过去重、质量审核和匿名化改写，最终保留了这1115个问题，平均每题约23.6个单词。

Q2：HERO-QA检索系统相比普通检索方法有什么不同？

A：HERO-QA会先根据手册长短决定检索策略：短手册直接使用全文，长手册则同时启动四种检索方式（语义相似度、关键词匹配、章节正文检索、章节标题检索），四路结果合并排序后再通过精排模型二次筛选，最后扩展到完整章节上下文。与早期版本相比，这套系统平均降低了手册缺失率13.6个百分点。

Q3：AI评判员在判断两本手册的答案差异时，最容易出现什么错误？

A：AI评判员最常见的错误集中在“互补”和“分歧”的边界上。在200对验证样本中，18个判断错误里有14个（78%）属于这类边界混淆，例如把人工标注为“互补”的案例判断为“分歧”，或判断为“一致”。相比之下，对于内容完全缺失或直接矛盾这两种极端情况，AI评判员的识别准确率接近完美。

来源：互联网

上一篇 全球卫星产业产值预估2027年达4470亿美元年增14% 下一篇 百度Apollo智能驾驶开源社区全国首个落地苏州

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。