查看原文
其他

Intel 将推出中国特供版 Gaudi 3

小智 云头条
2024-08-23
英特尔准备推出两款专供中国市场的 Gaudi 3 AI 加速器芯片,为了符合美国制裁政策,它们的性能将大打折扣。

英特尔的 Gaudi 3 白皮书详细介绍了这两款获准在中国市场销售的芯片。

这两款中国特供版处理器分别名为 HL-328 和 HL-388,分别采用 OAM 规格和 PCIe 规格,前者将于 6 月推出,后者将于 9 月推出,另外还有采用 PCIe 规格的 Gaudi 3。

总体而言,HL-328 和 HL-388 看起来与其他芯片大致一样,搭载同样的 128GB HBM2e VRAM、3.7TB/s 带宽、96MB 缓存、PCIe 5.0 x16 接口以及解码标准。

唯一的区别在于热设计功耗(TDP)方面,OAM 卡和 PCIe 卡这两款的 TDP 都是 450瓦。与其他型号相比,这个数值已大幅削减。并非面向中国市场的 PCIe HL-338 其 TDP 为600瓦,OAM 规格的 HL-325L 和 HL-335 其 TDP 为 900 瓦。中国特供版 Gaudi 3 型号的 TDP 比较低,这大概可以解释为什么没有液冷版。

尽管白皮书中没有明确说明,但为了遵守美国政府在处理器方面的出口管制,几乎可以肯定需要做出相应的变化。美国政府的出口管制禁止美国公司中国出口性能超过某个标准限制的芯片。
HL-328  HL-388 仍然使用两块晶片(die就像其他 Gaudi 3 变种一样,因为内存和缓存配置并没有变化。使用两块而不是一块晶片有助于降低性能密度,从而使芯片符合 4800 总处理能力TPP)这一更高出口限制。

4800 TPP 这一限制意味着芯片不得超过 150 TFLOPS 或更高的 16 位性能,而由于 Gaudi 3 在 BF16 下可以达到 1835 TFLOPS,英特尔将需要大幅降低性能。
这必须通过大幅减少核心数量和大幅降低时钟速度或其他某种限制性能的方法来实现。
HL-328  HL-388 的性能与英伟达 H20 或似,英伟达获准在中国市场销售的速度最快的 GPU。它拥有 148 TFLOPS  FB16  FP16 性能,刚好低于 150-TFLOPS限制。

由于 H20 和中国特供版 Gaudi 3 的原始核心性能大致相当,主要的区别将归结为内存(英特尔芯片有更大的内存容量,但带宽略低)和软件(这一直是英伟达芯片的卖点)。
继续滑动看下一个
云头条
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存