其他资讯

医疗AI落地指南：蚂蚁百灵大模型与专科数据集深度测评

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

蚂蚁集团开源国内首个医疗专科推理数据集RJUA-QA，包含2132个高质量泌尿科临床问答对。该

12月28日，在“虹桥之源”大模型驱动数字经济新生态峰会上，蚂蚁集团商业机器智能部总经理顾进杰宣布，正式开源国内首个医疗专科推理数据集。此举旨在精准提升大模型在垂直医疗场景下的专业判断与推理能力。

蚂蚁集团商业机器智能部总经理顾进杰介绍国内首个医疗专科推理数据集

当前，通用大模型在处理医疗问诊时存在显著的模式差异：模型往往直接输出结论，而临床医生的实际诊断是一个基于专业知识、持续追问与逻辑推理的严谨过程。叠加模型幻觉、推理能力不足以及高质量中文医学专科数据稀缺等挑战，训练出真正可靠的医疗领域大模型难度极高。

为应对这些挑战，蚂蚁集团与上海仁济医院泌尿科专家团队展开合作。双方基于一线临床经验，通过构建模拟病例数据，共同推出了首个中文医疗专科问答推理数据集——RJUA-QA。这也是业内首个真正意义上的临床专科数据集。

该数据集由训练集、验证集和测试集构成，包含2132个高质量问答对。每个问答对均源于医生临床实践，涵盖问题、专家回答及用于辅助推理的上下文信息。其病种覆盖超过97.6%的泌尿科常见就医人群，能够高度还原真实诊疗场景。该数据集不仅可用于提升大模型的诊断推理能力，更能作为一个严谨、可控的评测基准，为医疗AI的应用落地提供可靠的评估标准。

借此机会，顾进杰进一步分享了蚂蚁百灵大模型在医疗领域的技术布局。他认为，专业性、可控性与轻量化是推动大模型与医疗行业深度融合必须解决的三大核心挑战，同时也蕴藏着关键机遇。

专业性：构建多模态知识引擎，开源专科数据集

医疗行业细分领域众多，超百个科室各有独立的知识体系。要让大模型真正具备专科能力，必须在每个领域进行深度优化。为此，蚂蚁集团联合医疗专家研发了多模态医疗知识引擎，并致力于推动如RJUA-QA这类专业数据集的构建与开源，为行业提供高质量的基础训练素材。

可控性：知识图谱加持，让回答“有据可查”

如何确保大模型输出的内容可靠且可追溯？百灵大模型的策略是深度融合知识图谱技术。这使得模型的每一个回答背后都有一条清晰的知识依据链。顾进杰指出，生成内容可灵活适配不同医院、科室的定制化需求，包括表述风格与专业调性。蚂蚁在超大规模图学习与知识图谱领域拥有长期积累，其联合OpenKG发布的开源项目OpenSPG，重新定义了工业级知识图谱的语义架构。知识检索增强技术正是大幅提升大模型答案准确性与可控性的关键。

轻量化：攻坚“小身材大能量”，助力便捷部署

考虑到医疗机构对数据隐私、专业自主性的严格要求，以及实际的算力成本与部署便捷性需求，模型轻量化至关重要。蚂蚁集团于12月开源的模型轻量化框架（PIA），集成了模型剪枝、压缩、量化、推理加速等全链路优化技术，具备开箱即用、功能无损、低代码接入等特点。据称，该框架可在数天内实现10倍以上的模型压缩，让“大模型”也能变得小巧、高效、易于部署。

这些技术投入的实际效果如何？从多项公开评测来看，蚂蚁百灵大模型表现出了强劲的竞争力。目前，其在中英文医疗考试及多项基准测试中，已达到或超越了GPT-4的水平。例如，在中文医疗大模型权威评测榜单PromptCBLUE上，取得了A榜第一、B榜第二的成绩；在国际医疗问答榜单PubMedQA中，以80.6%的准确率跻身前五，并且是前十名中参数量最小的模型——这意味着它在保持高精度的同时，具备了更优的部署适用性。

来源：互联网

上一篇 上海交大孵化：穹彻智能具身AI公司深度解析与行业前景展望 下一篇 数字安全实战指南：大模型时代必读的权威防护手册

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

医疗AI落地指南：蚂蚁百灵大模型与专科数据集深度测评

摘要

专业性：构建多模态知识引擎，开源专科数据集

可控性：知识图谱加持，让回答“有据可查”

轻量化：攻坚“小身材大能量”，助力便捷部署

相关文章推荐