菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > AI数据中心三堵墙:PI与SI破解之道
技术资讯 数据中心 AI数据中心三堵墙

AI数据中心三堵墙:PI与SI破解之道

2026-06-07
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

引言 近三年,AI大模型的迭代速度已显著超越传统数据中心架构的演进能力。从GPT、多模态

引言

近三年,AI大模型的迭代速度已显著超越传统数据中心架构的演进能力。从GPT、多模态模型到视频生成、Agent与具身智能,参数规模、训练数据量及推理负载持续攀升。与此同时,AI数据中心正从传统CPU时代加速迈入GPU、AI加速器与高速互联主导的新阶段。

当全行业聚焦更高算力时,一个日益尖锐的瓶颈逐渐浮现:制约AI数据中心进一步扩展的,早已不单是算力芯片数量,而是功耗墙、内存墙与带宽墙。高端AI GPU单卡功耗已突破700W,单机柜功耗逼近甚至超过100kW;HBM不断推动存储带宽增长;NVLink、InfiniBand、800G Ethernet及PCIe Gen5/Gen6等高速互联技术持续提升系统吞吐能力。

然而,随着系统规模持续扩展,更多隐藏问题暴露出来。大量工程师发现,系统稳定性、误码率及一致性测试的根源,往往不在协议本身,而在于更底层的系统设计。最终,这些问题都会回归到PI(电源完整性)、SI(信号完整性)与EMI(电磁干扰)之间复杂的耦合关系。

为何越来越多高速问题的根源指向电源

在高速电路设计中,PI、SI与EMI看似分属不同领域,实则高度耦合。业内逐渐形成共识:超过半数的SI问题源头来自电源质量;同时,大量EMI超标案例本质上是PDN(电源分配网络)中的高频噪声所致。因此,高速设计领域总结出一条黄金法则:先保障PI,再优化SI。

对AI数据中心而言,这一关系尤为突出。GPU负载剧烈波动、供电密度持续攀升以及高速互联不断升级,使得电源系统的任何波动都会直接体现在信号质量上。

电源完整性(PI)测试:挑战远超表面难度

PI的核心在于为系统提供稳定、纯净且可预测的供电环境。在AI数据中心中,GPU动态负载的剧烈变化、高密度供电架构以及HVDC系统的演进,使PI测试的重要性持续提升。但现实是,PI并非单一测试,而是一套涵盖直流测试、交流测试、瞬态测试及专项分析验证的完整体系——任何环节缺失,都会为量产埋下风险。

其中最典型的问题之一是纹波测试。现代芯片供电容错率通常仅3%~5%,高端芯片甚至低至1%。这意味着电源纹波必须控制在10~15mV范围内。然而实际测试中,本底噪声、探头选型、耦合方式及带宽限制都会影响最终结果。若测试链路本身存在误差,测得数据便难以真实反映系统状态。

除纹波测试外,TLVR阶跃负载测试同样是PI验证的关键环节。相比传统VRM,TLVR可带来约10mV的性能改善,但在常规测试环境下,仅地环路误差就可能高达27mV。

换言之,测试误差甚至超过了技术本身带来的改善幅度。如果无法精准控制测量链路,研发团队将难以判断系统性能是否真正得到提升。

信号完整性(SI):误码为何越来越像“玄学”

对许多高速工程师而言,最头疼的并非发现误码,而是误码无法稳定复现。实验室通过,客户现场失败;室温正常,高温异常。这类问题在PCIe、DDR、MIPI等高速系统中日益频发。SI问题的根源主要有两方面:一是建立保持时间不足导致时序异常,二是信号幅度不足引起波形失真。对于DDR、MIPI等并行接口,工程师需同时关注时序完整性与波形完整性;而对于PCIe、USB等串行接口,阻抗匹配则成为核心挑战。

其中,抖动分析是整个SI验证中最复杂的环节之一。抖动(Jitter)本质上是信号相对于参考时钟的定时误差(TIE)。根据来源不同,可进一步分为随机抖动(RJ)与确定性抖动(DJ)。实际分析中通常借助双狄拉克模型进行分解,并结合直方图、眼图及TIE分析完成信号裕度评估。

一致性测试:能通信不等于能量产

对于当今的高速系统,正常通信只是起点。真正决定产品能否量产的关键,是一致性测试。以MIPI C-PHY为例,完整标准测试项目多达43项——任何一项不满足规范,产品便无法通过认证。

这些测试不仅涵盖抖动、眼图、电压及时序等基础指标,还包括大量专项协议验证。随着PCIe、DDR、MIPI等标准持续升级,测试项目数量不断增加,人工测试效率越来越低,自动化测试能力已逐渐成为研发效率的核心组成部分。

AI数据中心为何会放大这些挑战

如果说过去PI与SI已经足够复杂,那么AI数据中心则进一步放大了所有挑战。为了突破功耗墙、内存墙与带宽墙,系统不得不引入HBM、PCIe Gen6、高速SerDes、800G Ethernet以及更复杂的供电架构。

但更高带宽意味着更高功耗;更高功耗催生更复杂的供电系统;而更复杂的供电系统又会进一步影响高速链路的稳定性。因此,PI与SI不再是两个独立问题,而是形成了真正意义上的系统级耦合关系。

结语

AI数据中心的发展正不断突破功耗、内存与带宽的边界。随着GPU功率持续攀升、HBM带宽持续增长及高速互联不断升级,系统设计挑战已从单一模块优化转向系统级协同优化。

对今天的工程师而言,真正要解决的已不再是某个高速接口能否正常工作,而是整个系统能否在高功率、高带宽及高动态负载环境下持续稳定运行。这正是PI与SI成为AI数据中心时代最关键底层能力的根本原因。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多