其他资讯

字节跳动LPU芯片AI推理对比Groq国产芯片性能测评

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

AI推理算力持续暴涨，国内芯片研发路线正发生结构性转向——从传统GPU逐步迁移至以中央

AI推理算力持续暴涨，国内芯片研发路线正发生结构性转向——从传统GPU逐步迁移至以中央处理器为轴心的架构探索。最新情报显示，字节跳动已低调启动自研CPU计划，但目标并非通用处理器，而是逻辑处理单元（LPU）这类定制化芯片。

一位长期跟踪硬件赛道的海外分析师指出，字节跳动正与国内一家阻变存储器（RRAM）企业深度协同，试图复刻对标Groq LPU的技术方案。这一动向不容忽视，它标志着头部玩家已正式将LPU纳入核心战略版图。

此前业界普遍认为LPU仅适用于小众场景，但字节跳动的入局表明，这种专为大语言模型优化的张量处理架构正迅速成为全球科技巨头的必争之地。LPU在公众视野中远不如GPU或TPU知名，最近一次高光出现在今年三月——某国际厂商在年度技术峰会上发布了LPU30芯片。需要明确的是，该芯片并非自研成果，而是去年末斥资200亿美元从Groq获得的技术授权。

200亿美元的投入背后，是LPU不可替代的技术溢价。Groq创始人乔纳森·罗斯，正是十年前谷歌TPU项目的核心架构师。2016年，他带领多位TPU核心成员离职创办Groq，专注打造面向AI推理的专用硬件。与通用GPU截然不同，LPU从指令集到内存层级均针对大语言模型的计算模式进行底层重构。

实测结果极具说服力：LPU推理速度可达H100 GPU的十倍，单位算力成本仅为后者十分之一，精准击穿企业对实时性与低延迟AI服务的硬性需求。以LPU30为例，单芯片集成500MB SRAM缓存，晶体管规模980亿颗，FP8精度下算力达1.2 PFLOPS。峰值AI算力未必超越新一代GPU，但内存带宽飙至150 TB/s——反观当前主流HBM4标准仅22 TB/s，代差极其悬殊。

后续推出的Groq 3 LPU采用模块化部署方案，以Groq 3 LPX机箱为载体，单机架可集成256颗LPU30，总缓存128GB，内存总带宽突破40 PB/s，芯片间互联带宽达640 TB/s。可见LPU并非与GPU硬拼峰值算力，而是在数据吞吐、访存延迟等决定推理效率的维度实现量级跃升，从而显著优化AI服务的响应速度与运营经济性。

若字节跳动成功将类LPU芯片量产落地，终端用户体验将迎来质的飞跃。以当前智能助手为例，交互虽已顺畅，但复杂任务理解与多步推理仍存在明显瓶颈——本质上是推理算力预算不足。一旦引入LPU级硬件支撑，运营成本可大幅压缩，产品的语义理解、响应速度与任务执行能力将全面进阶，智能化潜力才能真正被激活。

来源：互联网

上一篇 代币与人力对比：企业激励新权衡指南 下一篇 高温叠加618大促降温家电即时零售热卖榜

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

字节跳动LPU芯片AI推理对比Groq国产芯片性能测评

摘要

相关文章推荐