第五代英特尔至强AI特化通用服务器CPU榜单
摘要
先说几个核心判断:AI已经成了数据中心和服务器市场的绝对主角,就连通用服务器CPU,现
先说几个核心判断:AI已经成了数据中心和服务器市场的绝对主角,就连通用服务器CPU,现在也开始拼命往AI计算能力上靠。去年年底,英特尔发布了第五代至强处理器,通用计算性能在提升,更重要的是,加入了针对AI的新指令集——比如AMX、A VX这些。
第五代至强可扩展处理器架构剖析
第五代至强是2023年底发布的,和第四代一样,都基于Intel 7制程,也用了Dual-poly-pitch SuperFin晶体管技术。但英特尔还是在关键指标上做了优化——比如系统漏电流控制和动态电容。这些改进带来的效果是:同等功耗下,频率能提升3%。其中,漏电流控制贡献了2.5%,动态电容下降贡献了0.5%。

芯片封装这块,英特尔也做了一些有意思的调整。第四代至强是把芯片切成四个相对对称的部分,而第五代至强改成了切两份。为什么这么改?过去每两片芯片之间通信,需要额外的互连接口,既占芯片面积,还增加功耗。现在芯片质量控制做得更好了,英特尔能在相对较大的面积下依然保持很好的良率,所以从四片改成两片,芯片面积控制得更好了,功耗也更友好。
处理核心升级到了Raptor Cove,核心数从最多的60核增加到64核。I/O速度上,DDR从4800MT/s提升到5600MT/s,UPI从16GT/s提升到20GT/s。但最大的升级之一,其实是LLC缓存——单个模块的容量从1.875MB直接增加到5MB。这意味着什么?如果处理的数据集规模比较小,完全可以把主要数据塞进LLC缓存里,大量减少内存访问,性能自然就上去了。这些架构上的改进,直接体现在生成式AI和LLM等应用上的性能提升。
通用服务器上跑AI
除了传统的CPU计算核心,英特尔还加了AMX翻跟斗,专门用来处理矩阵运算。测试数据显示,AI推理性能比上一代提升了最多42%。对于那些非大模型类的AI应用——比如推荐系统、语音识别、图像识别,英特尔一直主张在CPU上跑,配合OpenVINO生态做优化。
有意思的是,在推荐系统这类场景下,尤其是当模型大到GPU也处理不了的时候,CPU反而更快。因为GPU不够用时,往往需要跨GPU计算,或者频繁和CPU交互,这时候CPU的效率反而更高。
对于通用的AI工作负载,英特尔用的是AMX和A VX-512两个指令集,基于OpenVINO做优化。推理的时候,指令集可以切分,用翻跟斗定向加速某一部分,这甚至能替代传统的基于GPU的AI模型。
还有一个重要考量是成本。在模型调优、推理、应用这些环节,用通用服务器性价比非常高。尤其是当企业并不需要24小时跑大模型,大模型只是业务的辅助工具时——比如聊天机器人、内容生成、提纲分析——没必要重新部署一套GPU平台。新平台意味着要重新考虑开发、运维,成本可能蹭蹭往上涨,对很多企业来说,这可能是个不小的负担。
从合作伙伴的案例来看,百度云已经有基于第五代至强的服务器,提供在CPU上运行的大模型服务;京东的应用中,第五代至强相比前一代,在Llama2 13B模型上看到了50%的性能提升。所以说,第五代至强在AI应用上的性能提升确实比较明显。
编解码也是一个值得关注的点。目前不少主流客户为了追求更好的图像质量,反而选择用CPU做编解码。GPU有硬件加速,速度快,但视频编解码质量往往略逊于CPU。第五代至强处理器在AMX-INT8的加持下,吞吐从原来的1.5FPS增强到了33FPS,基本能满足实时编码的需求。
下一代至强路线图
从路线图来看,2024年英特尔还会发布新一代至强可扩展处理器,产品组合非常丰富,兼顾性能和能耗。基于现在的第五代至强,英特尔会推出下一代的性能核——高主频、高性能的CPU核架构,主要针对主流和复杂的数据中心应用做性能优化。尤其是很多跑在虚拟机上的程序,或者之前写的大程序,只有在性能核上才能看到明显的性能提升。

同时,针对新兴的云原生设计,英特尔还提供基于能效核打造的至强处理器。每瓦性能可以做到相对极致,而且因为核心设计比较精简,可以在每颗CPU和服务器里塞进更多高密度的核心,从而支撑面向云的高密度、超高能效运算。值得一提的是,在近期产品淘汰换新的要求中,能效比已经成了一个重要考量因素——这也正好符合国家对设备淘汰换新的方向。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。