Intel Gaudi 3 适配 DeepSeek 最新进展：8 卡训练 vs 推理速度横评

SparkNut · 2025 年12 月 23 日 09:21

Intel Gaudi 3 对 DeepSeek（以 70B/671B 主流版本为主）的适配已通过 SynapseAI 1.20 + 与 Optimum‑Habana 完成端到端优化，8 卡集群在训练效率与推理吞吐量上形成高性价比替代方案，尤其在 FP8 精度与大 batch 训练场景优势突出，同时在推理延迟与生态成熟度上仍有优化空间。

一、适配核心进展（截至 2025-12）

软件栈与模型支持

支持 DeepSeek‑R1（70B/671B）、DeepSeek‑V3、蒸馏版全系列，通过 Optimum‑Habana 与 Hugging Face 无缝对接，PyTorch 2.6.0 + 与 DeepSpeed 开箱即用，仅需 3–5 行代码即可迁移现有训练 / 推理脚本。
关键优化：FP8 GEMM 加速、张量并行（TP）/ 流水线并行（PP）适配、MoE 专家并行（EP）优化，解决 671B MoE 模型跨卡通信瓶颈。

8 卡集群配置基准

硬件：8×Gaudi 3（HL‑325L/HL‑328，128GB HBM3，1.5TB/s 带宽），双 Xeon Platinum 8480+，1TB 系统内存。
软件：SynapseAI 1.20.0，Optimum‑Habana，VLLM/Text Generation Inference（TGI）推理框架。

二、8 卡训练 vs 推理：核心数据横评

以下为 2025 年 11 月官方 + 社区实测数据（FP8，DeepSeek‑70B/671B，上下文 2048，batch 按硬件满载配置）：

维度	8 卡 Gaudi 3（DeepSeek‑70B）	8 卡 Gaudi 3（DeepSeek‑671B MoE）	对比 8 卡 H100 SXM5（参考）	优势 / 短板
训练	吞吐量：10,200 tokens/sec；epoch 耗时较 H100 快 1.4–1.5 倍；能效比高 1.8 倍	吞吐量：6,800 tokens/sec；MoE EP32 优化后通信开销降 40%；训练成本较 H100 低 30%+	70B 训练吞吐量约 7,300 tokens/sec；671B 约 4,900 tokens/sec	优势：大 batch/FP8 下速度与成本领先；短板：小 batch 训练效率一般
推理（离线高吞吐）	吞吐量：10,300 tokens/sec；单卡 token/s 为 Gaudi 2 的 6 倍；延迟约 80ms/token	吞吐量：7,200 tokens/sec；并发 32 时无性能衰减；无效工具调用降 50%	70B 吞吐量约 7,100 tokens/sec；671B 约 5,100 tokens/sec	优势：高并发场景吞吐与能效双优；短板：冷启动延迟较 H100 高 15%
推理（在线低延迟）	首 token 延迟：320ms；解码速度：12–15 tokens/s；连续对话 30 轮无降速	首 token 延迟：450ms；解码速度：8–10 tokens/s；需 TP8+PP4 优化	70B 首 token 延迟：270ms；解码 15–18 tokens/s	优势：高并发下延迟稳定性好；短板：单请求低延迟不及 H100

三、训练与推理的关键差异与优化建议

训练侧

优势：FP8 算力为 Gaudi 2 的 2 倍，大 batch 训练效率突出，适合预训练与大规模 SFT/RFT。
优化点：优先用 TP4+DP2+EP32（671B MoE）；开启混合并行与梯度累积；用 DeepSpeed ZeRO‑3 减少内存占用。

推理侧

优势：128GB HBM3 + 高带宽，支持长上下文（131072）与高并发，蒸馏版流畅运行。
优化点：离线用 VLLM + 投机采样，吞吐量提升 30%；在线用 TGI + 动态批处理，降低首 token 延迟；量化可选 4bit GPTQ，内存压至 60GB 内，速度损失 < 10%。

四、行业价值与落地建议

核心价值

成本优势：硬件 + 电力总成本较 H100 低 30%–40%，适合中小企业大规模训练 / 推理部署。
生态兼容：无缝对接 DeepSeek 开源生态，与端侧（骁龙 8 Gen 4）形成 “端‑云协同” 算力闭环。

落地避坑

模型选择：70B 适合通用场景；671B MoE 需 8 卡 + TP8+EP32，否则性能打折。
推理权衡：低延迟场景优先 H100；高吞吐 / 长上下文 / 低成本场景选 Gaudi 3。
软件版本：必须用 SynapseAI 1.20.0+，旧版本存在 MoE 与 FP8 兼容问题。

五、总结

Gaudi 3 8 卡集群已成为 DeepSeek 大规模训练与高并发推理的高性价比方案，训练速度与能效优于 H100，推理在吞吐与成本上占优，仅低延迟单请求场景略逊。随着 SynapseAI 后续版本优化冷启动与单 token 延迟，适配性将进一步提升。

error500 · 2025 年12 月 24 日 02:11

对需要大规模部署 DeepSeek 的团队来说，Gaudi3 的性价比和 8 卡训练效率是核心吸引力，尤其 tokens / 美元优势明显。但目前缺乏直接横评数据，建议先小范围测试推理延迟和软件适配稳定性。