Ouroboros:大模型推理的晶圆级存算一体架构突破 大模型规模的指数级增长,正将传统计算
大模型规模的指数级增长,正将传统计算架构推向极限。参数从千亿迈向万亿,每一次迭代都直接转化为对底层硬件更严苛的能效与带宽要求。在这场性能竞赛中,一个根本性瓶颈日益突出:数据搬运已成为主要的性能与功耗开销来源。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在冯·诺依曼架构下,一次典型的大模型推理涉及权重、激活值和KV Cache在DRAM、SRAM与计算单元间的反复迁移。频繁的片外访存不仅带来高延迟,其能耗甚至远超计算本身,构成巨大的效率损失。
如何从架构层面根除这一瓶颈?答案指向两条深度融合的技术路径:存算一体与晶圆级集成。
存算一体旨在将存储与计算单元深度融合,实现数据原位处理,彻底规避远程搬运。晶圆级集成则更进一步,在整片硅晶圆上构建超大规模系统,通过超高密度互连形成统一的存储与计算资源池。

近期,中国科学院计算技术研究所的研究团队在这一前沿交叉领域取得了关键进展。其研究成果——Ouroboros,已在体系结构顶会ASPLOS 2024上发表。
Ouroboros是全球首款完全基于SRAM存算单元构建的晶圆级芯片。其设计哲学极为清晰:数据原地驻留,计算主动寻址。在该芯片上,模型推理所需的全部数据——包括权重、KV Cache及中间激活值——均驻留于片上SRAM,无需任何片外DRAM访问。所有计算操作均在数据存储位置原位执行,真正实现了“零数据搬运”的存算一体范式。

为实现这一目标,Ouroboros采用了自上而下的三层精密架构:
1. 晶圆级集成
顶层采用单晶圆集成,片上集成高达54GB的SRAM。这一容量足以完整容纳典型大模型的权重与推理状态,从根本上消除DRAM访问。整片晶圆由多个同构芯粒通过先进缝合技术无缝集成,形成一个可统一调度、协同工作的巨型计算平面。
2. 芯片级组织
每个芯粒内部,由上百个存算核心构成二维网格网络,核心间通过高带宽、低延迟的片上链路互联。设计团队将芯粒面积推至光刻极限,以最大化SRAM容量占比。同时,为核心级故障设计了硬件级容错机制,保障大规模系统的可靠性。
3. 存算核心微架构
每个存算核心集成了输入/输出缓存、存算阵列、专用函数单元及控制单元。缓存容量经过精心优化,可容纳典型模型的token序列,极大减少核心间通信。存算阵列通过定制化片上网络互联,专用函数单元以匹配的并行度高效处理softmax等非线性运算,控制单元则负责核心间与核心内的流水线同步。
尽管Ouroboros构建了强大的晶圆级计算平面,但在部署大模型时仍需攻克几个关键挑战:
第一,SRAM容量与模型规模的矛盾
即便集成54GB SRAM,面对持续增长的模型参数量与KV Cache,片上存储仍面临压力。如何在有限的硅面积内,高效容纳日益庞大的模型状态,是存算一体架构的长期课题。
第二,巨型计算平面的资源映射难题
将复杂的大模型计算图高效映射到由成百上千个核心组成的分布式阵列上,涉及复杂的存储布局、数据流调度与任务划分。这需要全新的编译与调度策略。
第三,存储与计算的协同优化复杂度
在存算一体架构中,计算效率直接受存储布局制约。必须对存储分布与计算路径进行协同设计与优化,以最大化数据局部性,这显著增加了系统设计的复杂度。

为充分释放晶圆级硬件的潜力,研究团队配套开发了端到端的大模型推理框架。该框架从模型流水线并行切分开始,即进行硬件感知的精细化调整,旨在实现存算资源的极致利用。
团队创新性地设计了一套权重映射策略,结合分层映射方法,最大化数据复用,最小化核心间数据传输。针对KV Cache的管理,框架采用了分布式动态缓存管理方案,并配有专用硬件支持,将片上缓存的空间利用率提升至新水平。


通过芯片与系统的协同设计,Ouroboros成功实现了“数据不动计算动”的原位计算范式,并在性能与能效上取得显著突破。基准测试数据提供了有力佐证:
与现有先进系统相比,Ouroboros实现了平均4.1倍的吞吐量提升与4.2倍的能效提升。
在13B参数模型上,其优势更为显著:吞吐量最高提升9.1倍,能效比提升达17倍。
具体而言,在单晶圆上推理Llama 13B模型、于WikiText‑2数据集测试时,系统吞吐量稳定达到 15万 tokens/秒。这一结果实证了Ouroboros在处理真实大模型负载时的卓越性能。
上述成果不仅验证了架构设计的有效性,更为“存算一体+晶圆级集成”技术路线的可行性提供了坚实证据。这项研究标志着,在构建下一代高效大模型推理基础架构的道路上,我们迈出了关键一步。
论文链接:https://dl.acm.org/doi/10.1145/3779212.3790197
作者介绍:本文作者来自中国科学院计算技术研究所智能计算机研究中心和泛在计算系统研究中心物端计算系统实验室,团队长期致力于芯粒集成芯片研究。本文的共同第一作者是刘艺圻和潘煜东,均为计算技术研究所在读博士生。指导老师为中科院计算所王颖研究员、韩银和研究员、王梦迪特别研究助理。
菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。