英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录:提速 60%,最快 2.02 分钟完成

DeepSeek-V3:基于拥有 671B 参数的大规模预训练语言模型,侧重测试稀疏计算(MoE 架构)的性能 … MLPerf Training 6.0 测试套件主要新增了 DeepSeek-V3 671B 和 GPT-OSS-20B 两个混合专家模型(MoE)预训练工作负载 … CoreWeave 则借助采用 Spectrum-X 以太网的 GB300 NVL72 系统,在 8192 块 GPU 规模上把 DeepSeek-V3 671B 训练到目标质量,耗时缩短至 2.02 分钟。

原文连接