薛贵荣GAIR 2025演讲:AI科研与大语言模型瓶颈深度解析
摘要
在GAIR2025大会上,薛贵荣博士指出大语言模型受限于语言边界,难以独立完成科学发现。他
12月12日,第八届GAIR全球人工智能与机器人大会在深圳正式开幕。本次为期两天的行业峰会由GAIR研究院联合主办,高文院士出任指导委员会主席,杨强院士与朱晓蕊教授共同担任大会主席。
作为追踪AI技术路径与产业格局演进的关键风向标,GAIR大会自2016年发起至今,持续捕捉全球人工智能领域的每一次范式跃迁,完整记录了前沿技术从学术突破到规模化商业落地的全过程。站在2025年大模型从“能力涌现”转向“应用深耕”的转折点上,本届大会集结全球顶尖思想,共同剖析AI核心技术的演进趋势,解构产业价值创造的内在逻辑。
在大会现场,之江实验室科学模型总体组技术总师、天壤智能CEO薛贵荣博士进行了专题深度阐述。他提出,以大语言模型为代表的AI技术虽在部分科研场景中表现出辅助潜力,但其能力天花板受制于“语言符号系统”本身,难以直接处理和理解高维、异构的科学数据,更无法独立完成具备可重复验证性的科学发现过程。
基于这一判断,薛贵荣博士系统阐释了大语言模型与科学基础模型在根本范式上的差异,并重点介绍了之江实验室021科学基础模型在突破语言维度限制、统一多模态科学数据表征、实现复杂科学推理以及促进跨学科知识融合等方面的核心突破。他也分享了关于“AI驱动科研”新范式的几点关键洞察:
- 大语言模型处理科学问题的能力存在明显瓶颈。在涵盖上百个学科的高难度HLE基准测试中,当前最优模型的准确率仅为25.4%。
- 要赋能科学研究,基础模型必须超越文本语义理解,直接学习化学结构、天文观测、地质信号、生物序列、材料图谱等科学数据的本质规律。
- 科学基础模型与大语言模型的核心差异在于数据根基:后者以自然语言文本为Token化单元,而前者处理的Token是跨领域、多模态的科学数据实体。
- 实现科学数据Token化的关键在于解决OneTokenizer问题,即将光谱、分子式、基因序列等异构数据映射到统一的表征空间。
- 完成科学数据的Token化与对齐后,能够构建不同类型数据间的深层关联,从而在应对跨学科复杂科学问题时实现端到端的系统化解析。
- 为突破大语言模型在科研中的局限,之江实验室研发了021科学基础模型。该模型旨在构建对科学世界的客观认知体系,并具备快速、精准、高泛化性的科学知识问答与推理能力。
01 大语言模型的科研瓶颈何在?
我们将视角聚焦于之江实验室在科学基础模型方向的探索与实践。
今年,我国明确提出“人工智能+”行动,其中“AI for Science”被置于首位。那么,人工智能究竟如何深度赋能科学研究?又如何将其转化为可支撑广泛科学探索的基础设施?这是当前亟待厘清的核心议题。
“AI+科学”是一个充满挑战与机遇的交叉领域。上月,美国启动了代号为“AI曼哈顿计划”的“创世纪计划”。历史上的曼哈顿计划以大规模工程协作著称,而“创世纪计划”则联合了17个国家实验室、超过四万名科学家,被视为冷战后最大规模的联邦科研资源动员。该计划目标清晰、阶段明确,旨在推动人工智能在基础科学领域取得革命性成果。

项目相关负责人Dario Gil指出,人工智能在科研中的应用可以从智能对话交互起步。但其终极价值绝非仅生成文献综述,而在于产出可验证、可复现的科学结论。这需要整合模型能力与实验室历史积淀的海量数据,构建可迭代验证的数据集,通过持续训练优化,最终形成服务于科技创新的工具链。
事实上,人工智能辅助科研的历史已不短暂。我们需重新审视大语言模型在这一进程中的实际定位。

一份凝聚了众多科学家共识的报告,归纳了当前人工智能在科学发现中可处理的五类核心问题:多模态与多尺度学习、知识迁移、数字孪生构建、实验方案设计以及交互式学习。
那么,现阶段AI在科研工作中究竟扮演何种角色?同项调研显示,在1600名科研人员中,约三分之二认为AI工具优化了数据处理流程,超过半数研究者肯定其在提升计算效率、节约时间与成本方面的价值。
2024年,顶尖数学家陶哲轩预测,到2026年,人工智能将成为数学研究中可信赖的协作者。他本人已积极运用AI工具推进研究,近期便借助GPT-5 Pro深入探索了微分几何中的“有界曲率球体问题”本质。值得注意的是,这并非其传统研究强项。这或许标志着一个新阶段的开启:借助AI,研究者能够突破自身学科边界,探索更广阔的科学难题。
OpenAI近期也推出了“OpenAI for Science”新计划,目标是构建一个由AI驱动、加速科学发现的开放平台,并已在量子场论推导、干细胞相关蛋白质优化等课题上取得进展。近期,团队甚至招募了研究黑洞的天文学家亚历克斯·卢斯帕卡,以协助定位银河系内的黑洞目标。此前,该研究人员耗时数日完成的“黑洞扰动理论中新对称性”精确形式推导,GPT-5 Pro在30分钟内即给出了解决方案。
02 科学基础模型如何突破LLM的科研天花板?
尽管大语言模型在部分科学问答与推理任务上表现不俗,但要真正深度融入科研工作流,它仍面临一系列根本性挑战。
语言是人类思维交流的符号载体,堪称认知体系的结晶。正如哲学观点所言:“语言的边界即是认知的边界。”如今,我们试图用承载人类认知的语言模型去解决科学问题。然而,根据HLE发布的最新评估,大语言模型在科学知识与复杂推理方面,远未触及人类认知的边界。在覆盖百余学科的高难度HLE测试中,最优模型的准确率仅为25.4%。

因此,当前依赖大语言模型服务科学研究存在显著局限。要真正赋能科研,模型必须跨越语言的藩篱,直接理解分子、基因、地震波、光谱等高维科学数据的内在逻辑。
常言道,一图胜千言。视觉图像是传递信息的重要媒介。但在科学领域,存在着更为复杂的数据形态,例如光谱。可以说,一张光谱图所承载的信息密度,远超成千上万张普通图像。
无论在遥感探测还是化学分析中,光谱仪都是核心设备,其生成的光谱数据不仅能鉴定物质成分,更能通过特征波段反演其元素构成与状态。
另一类关键科学数据来自生命科学领域——基因序列。基因信息量极为庞大,单个人类基因组包含约30亿个碱基对。有分析指出,一个咖啡杯容积的DNA即可存储全球现有数据总量。如此超长序列,其表达的信息维度也极高。
再看地球科学中的典型数据:地震波。它如同地球的“语言”,揭示着地壳活动的状态与规律。当然,地震波的意义不止于地震监测,它更是透视地下结构的核心手段。油气与矿产勘探,必须精确解析地下构造,而地震波分析正是关键技术。与光谱类似,地震波也是一种高度复杂的连续信号数据。
依据香农信息论与经典语言学模型,自然语言本质上是一种低维离散符号系统。而科学数据往往蕴含时间、空间、能量等多维连续属性,其所需表达的信息维度与复杂度,远非自然语言能够完全覆盖。

从上图可见,语言所能表达的信息仅占其中很小一部分。再看右侧,与人类疾病相关的学科知识维度高达二十余种。若仅用语言来描述我们所认知的世界,其表达空间将极其受限。我们期望,科学基础模型能够攻克这一难题。
科学基础模型与当前的大语言模型存在本质区别。
首先是数据维度。当前大语言模型仍以文本数据作为Token化的基本单元。而科学基础模型所要处理的科学数据Token,存在于“科学数据空间”与“语言空间”的融合体中,其维度远高于纯语言空间。这里所指的空间,是跨学科、多模态的。实现这一点极具挑战,其前提是如何对科学数据进行高效、统一的Token化,即解决Tokenizer的普适性问题。
所谓的OneTokenizer,即致力于将我们观测到的一切科学实体统一到一致的数据表征框架下。包括前述的光谱、化学结构、蛋白质三维构象、DNA序列、地震波数据等,目标都是将其结构化并嵌入同一表征空间。

当然,这些数据本身拥有特定的专业表达形式,例如分子式。我们的目标是,即便使用文本描述,也能将其清晰区分。例如,同一个字符“C”,在分子式、蛋白质序列、DNA编码以及普通英文文本中,其语义截然不同。
这是一项系统工程,要真正实现,不仅需要人工智能科学家,更离不开各领域科学家的深度协作。
这正是我们推进中的工作:将基因组数据、细胞组学数据、光谱数据、晶体材料数据、时序数据、空间结构数据等全部进行Token化,并将其映射到统一的表征空间中。
其次,Token化完成后,数据“对齐”成为可能,这也是数据治理的核心环节。正如之前郑宇老师所阐述的,城市数据需要对齐,科学数据亦然。数据对齐之后,真正的科学发现与关联挖掘才具备基础。
以下四个案例可以阐释对齐的价值:
- 动物迁徙与环境变化:大雁为何南飞?仅是本能地追随温度变化吗?通过对齐全球温度场数据与鸟类迁徙轨迹数据可以发现,鸟类的路径选择与温度梯度变化高度相关,这实质上是从感知层面做出的适应性决策。
- 建筑密度与热岛效应:这与城市科学数据相关。若能对此类数据进行有效对齐,将极大助力于我们揭示城市环境的内在规律。
- GDP变动与夜间灯光强度:卫星观测的夜间灯光分布与区域GDP变化趋势之间存在可量化的关联性。
- 卫星与望远镜协同观测:两者对同一恒星进行成像,一种图像信噪比高,一种信噪比低。虽然观测目标一致(已对齐),但数据质量存在差异。将这两类数据融合分析,可能催生新的数据发现与方法。
通过将数据Token化并建立关联,从而实现不同学科或同一学科内不同专业数据的对齐——例如将基因变异、蛋白质功能与疾病表型对齐——我们便能进行端到端的全链路科学解析。
从零开始,我们训练了科学基础模型。这一过程异常复杂,不仅需要充沛的算力与高质量数据,更依赖高效的模型训练体系。我们经历了预训练、CPT、Long CPT、SFT、CoT SFT,再到强化学习等多个阶段的迭代。目前,模型仍在内部进行持续的测试与优化。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。