DeepSeek-V3:基于拥有 671B 参数的大规模预训练语言模型,侧重测试稀疏计算(MoE 架构)的性能 … MLPerf Training 6.0 测试套件主要新增了 DeepSeek-V3 671B 和 GPT-OSS-20B 两个混合专家模型(MoE)预训练工作负载 … CoreWeave 则借助采用 Spectrum-X 以太网的 GB300 NVL72 系统,在 8192 块 GPU 规模上把 DeepSeek-V3 671B 训练到目标质量,耗时缩短至 2.02 分钟。
DeepSeek-V3:基于拥有 671B 参数的大规模预训练语言模型,侧重测试稀疏计算(MoE 架构)的性能 … MLPerf Training 6.0 测试套件主要新增了 DeepSeek-V3 671B 和 GPT-OSS-20B 两个混合专家模型(MoE)预训练工作负载 … CoreWeave 则借助采用 Spectrum-X 以太网的 GB300 NVL72 系统,在 8192 块 GPU 规模上把 DeepSeek-V3 671B 训练到目标质量,耗时缩短至 2.02 分钟。