面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN

面壁智能联合清华大学、OpenBMB 开源社区,今天正式发布并开源其在低比特大模型训练方向的最新成果 ——BitCPM-CANN。 官方表示,这是中国首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型。从量化算子、训练算法到全链路框架,BitCPM-CANN 均在华为昇腾上原生完成 ,包含 0.5B、1B、3B、8B 四个模型尺寸,与同尺寸 MiniCPM4 全精度家族逐项对照评测,性能表现优异。 相比传统 BF16 精度,BitCPM-CANN 在推理阶段 释放约 6 倍显存红利 ,同时将模型能力保留率维持在 90%– 97.2 % 。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x